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第 一 部 分 ”开启 TensorFlow 之 旅 





Ale 引言 
1.1 无 处 不 在 的 数据 
12 深度 学 习 
1.3 TensorFlow: 一 个 现代 的 机 器 学 习 库 
1.4 TensorFlow: 技术 概要 
1.5 何 为 TensorFlow 
1.6 何 时 使 用 TensorFlow 
1.7 ”TensorFlow 的 优势 
1.8 ”使 用 TensorFlow 所 面临 的 挑战 
1.9 ” 蜗 歌 猛 进 
安装 TensorFlow 
2.1 选择 安装 环境 
2.2 Jupyter Notebook 与 matplothib 
2.3 创建 Virtualenv 环 境 
2.4 ”TensorFlow 的 简易 安装 
2.5 ”源码 构建 及 安装 实例 : 在 64 位 Ubuntu Linux 上 安装 GPU 版 TensorFlow 
2.6 ”安装 Jupyter Notebook 





2.7 ”安装 matplotlib 
2.8 ”测试 TensorFlow、Jupyter Notebook 及 matplotib 
2.9 本章 小 结 
第 二 部 分 “TensorFlow 与 机 器 学 习 基础 
33% ”TensorFlow 基 础 
3.1 数据 法 图 简介 
3.2 ”在 TensorFlow 中 定义 数据 流 图 
3.3 ”通过 名 称 作用 域 组 织 数 据 流 图 
34 练习: 综合 运用 各 种 组 件 
3.5 AES 
第 4 章 ”机 器 学 习 基 础 
4.1 有 监督 学 习 简介 
4.2 保存 训练 检查 点 
4.3 线性 回归 
44 对 数 几 率 回 归 
4.5 ”softmax 分 类 
4.6 多 层 神经 网 络 
4.7 ”梯度 下 降 法 与 误差 反问 传播 算法 
第 三 部 分 ”用 TensorFlow 实 现 更 高 级 的 深度 模型 
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PSH 
5.1 
3a 
5.3 
5.4 
a 
5.6 


目标 识别 与 分 类 
卷 积 神经 网 络 

卷 积 

常见 层 

图 像 与 TensorFlow 
CNN 的 实现 

AN RDN i 

循环 神经 网 络 与 自然 语言 处 理 
循环 神经 网 络 简介 
WERA 

序列 分 类 

序列 标注 

预测 编码 

AN RDN i 

其 他 提示 、 技 术 与 特性 
产品 环境 中 模型 的 部 署 
搭建 TensorFlow 服 务 开发 环境 
导出 训练 好 的 模型 

FE IRS a Be H 
实现 推 新 服务 器 
客户 端 应 用 

产品 准备 

AS RDN Bi 

辅助 函数 、 代 码 结构 和 类 
确保 目录 结构 存在 

下 载 函 数 

磁盘 缓存 修饰 器 

属性 字典 

惰性 属性 修饰 器 

履 亲 数据 流 图 修饰 器 
结语 : 其 他 资源 
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FATIMA INR, VRE SEI VE AEE OR FR BEAR, PRORATED S ATERRAR E, IP 
WESERI ek, TI Ho SACRE IRS le A. AN BORE Ak PER, REFA SOR IE ETRY 
Melt MAI CE. ARYA ETT ZK 








N TEDAN SE a CM SR EA OD FE, FRAT SET FER» RAAR RE HI ER U N Ji AD OT 
We ERREZ > Gu BEEZ — HY) Googlet#, 201511 HK A OA Aa i Lak A HK StTensorFlowH YF. BRAR Aa IN EE 
We, {AE Google ZEA) iz mE AWM TR A Re FCP, FAS fare HES MEERE, DAR FERRE 
AP ti Wt Ae PA ER SAY) BLE a, FEA REE TA) AEAEE ER EO) NEP a RR OA SE 6 «A 
公开 发 布 以 来 ，TensorFlow 始 终 保持 着 兼 收 并 蕾 的 态势 ， 不 断 地 从 其 他 优秀 开源 框架 中 汲取 优秀 特性 ， 在 广大 研究 和 开发 人 员 的 
强力 推动 下 ， 不 断 快 速 迁 代 并 大 幅 提升 代码 的 效率 ， 平 均 每 周 的 代码 更 新 量 都 超过 了 万 行 ， 所 形成 的 社区 开创 了 空前 的 活跃 度 。 
完全 可 以 预见 ，TensorFlow 将 长 期 位 列 一 流 开 源 框架 的 行列 。 























虽然 TensorFlow 的 优点 数不胜数 ， 但 其 “不 足 ” 也 较为 突出 ， 那 束 古 其 接口 过 于 复杂 ， 对 初学 者 的 编程 技能 和 知识 水 平 要 求 偏 
高 ， 学 习 曲 线 过 陡 。 本 书 的 问世 在 一 定 程 度 上 缓解 了 这 个 矛盾 。 本 书 的 几 位 作者 都 来 自 Goosgje 的 研发 一 线 ， 他 们 用 自己 的 宝贵 经 
验 ， 结 合 众 多 高 质量 的 代码 ， 生 动 讲解 了 TensorFlow 的 底层 原理 ， 并 从 实战 角度 介绍 了 如 何 将 两 种 常见 模型 一 一 深度 卷 积 网 络 、 
循环 神经 网 络 应 用 到 图 像 理 解 和 目 然 语 言 处 理 的 典型 任务 中 。 难 能 可 贯 的 是 ， 他 们 还 介绍 了 在 模型 部 普 和 编程 中 可 用 的 诸多 实用 
技巧 。 总 之 ， 本 书 非 各 适合 TensorFlow 的 入 门 学 习 。 























需要 说 明 的 是 ， 这 并 不 是 一 本 机 器 学 习 理论 或 深度 学 习 的 入 门 读物 ， 阅 读本 书 需要 读者 对 经 典 机 器 学 习 理 论 和 算法 、 深 度 卷 
积 网 络 、 循 环 神经 网 络 的 基本 原理 有 初步 的 了 解 ， 并 对 Python 编程 和 第 用 的 Python 库 〈 如 NumPy 和 matplotib) 较为 熟悉 。 另 外 ， 本 
书 的 代码 是 基于 TensorFlow 0.8 厂 的 ， 译 者 对 0.9 乒 所 做 的 接口 变动 以 " 译 者 注 ? 的 形式 做 了 部 分 资 明 ， 并 对 原 书 中 的 一 些 错误 进行 
了 订正 。 尽 管 TensorFlow 1.0 版 已 经 正式 发 布 ， 接 口 升级 相 比 以 往 任 何 一 版 都 要 更 多 ， 但 笔者 认为 读者 朋友 大 可 不 必 过 于 担忧。 
只 要 清楚 地 掌握 了 TensorFlow 的 基本 原理 和 Python 编 程 ， 并 动 于 借助 互联 网 ， 相 信 接 口 问题 都 可 迎 六 而 解 。 同 时 ， 为 方便 广大 读 
者 的 学 习 ， 原 书 作 者 和 译 者 也 会 抽 时 间 对 本 书 中 的 实例 代码 按照 TensorFlow 最 新 版 本 进行 升级 ， 请 大 家 关注 原 出 版 社 和 机 械 工业 
出 版 社 相 关 主 题 的 后 续 图 书 。 





























感谢 机 械 工业 出 版 社 张 梦 玲 编 辑 在 本 书 翻译 过 程 中 给 予 的 诸多 帮助 ， 也 感谢 家 人 对 我 无 微 不 至 的 关心 。 








深入 理解 深 破 学习， 从 了 解 优秀 的 开源 框架 开始 ， 愿 读者 朋友 们 的 TensorFlow 学 习 之 旅 一 帆 风 顺 ! 
段 菲 


2017 年 3 月 3 日 
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目 2015$ 年 11 月 TensorFlow 第 一 个 开源 版 本 发 布 以 来 ， 它 便 迅 速 跻身 于 最 激动 人 心 的 机 才学 习 库 的 行列 ， 并 在 科研 、 产 品 和 教 
育 等 领域 正在 得 到 日 益 广 泛 的 应 用 。 这 个 库 也 在 不 断 地 得 到 改进 、 充 实 和 优化 。 与 此 同时 ，TensorFlow 社 区 正 以 惊人 的 速度 发 展 
壮大 。 无 论 你 是 新 手 还 是 有 经 验 的 用 户 ， 笔 者 都 希望 通过 本 书 帮助 你 提升 使 用 TensorFlow 的 能 力 ， 使 你 目 如 地 充分 利用 这 个 功能 
强大 的 开源 库 。 








本 书 的 内 容 编 排 


第 一 部 分 : 开启 TensorFlow 之 旅 





本 书 第 一 部 分 将 帮助 读者 做 好 使 用 TensorFlow 的 准备 。 第 1 章 为 引言 ， 对 TensorFlow 的 历史 脉络 进行 了 简要 的 梳理 ， 并 对 
TensorFlow 的 设计 模式 以 及 选择 TensorFlow 作 为 深度 学 习 库 的 优势 和 面临 的 挑战 进行 了 讨论 。 








引言 之 后 的 第 2 章 将 介绍 安 儿 TensorFlow 时 应 当 考 虑 的 因 妹 ， 并 给 出 了 详细 的 TensorFlow 安 猴 指 南 ， 即 如 何 从 二 进 制 安 交 包 安 
252 Al HAWES E TensorF low. 





第 二 部 分 : TensorFlow 与 机 器 学 习 基 础 





从 第 3 章 开 始 ， 进 入 本 书 第 二 部 分 。 在 TensorFlow 安 装 完毕 后 ， 第 3 章 将 深入 介绍 TensorFlow API 的 基础 知识 ， 而 不 会 涉及 过 多 
的 机 器 学 习 概念 。 这 样 做 是 为 了 将 “学 习 TensorFlow” 和 “学 习 如 何 利用 TensorFlow 从 事 机 器 学 习 相 关 工 作 ” 区 分 开 来 。 第 3 章 将 对 
TensorFlow API 中 许多 重要 的 部 分 进行 深入 剖析 。 些 外， 还 将 演示 如 何 用 可 视 化 的 数据 流 图 表示 模型 ， 并 将 其 转化 为 TensorFlow 代 
码 ， 以 及 如 何 利 用 TensorBoard 验 证 数据 流 图 是 否 被 正确 建 模 。 

















介绍 完 TensorFlow API 的 核心 概念 之 后 ， 便 进入 第 4 章 。 这 一 章 将 利用 TensorFlow 实 现 一 些 简单 的 机 器 学 习 模 型 ， 如 线性 回 
归 、 对 数 几 率 回 归 (logistic regression) 和 聚 类 模型 。 





第 三 部 分 : 用 TensorFlow 实 现 更 高 级 的 深度 模型 


第 三 部 分 由 两 章 构 成 ， 每 章 都 只 关注 一 种 更 为 复杂 的 深度 学 习 模型 。 每 章 首 先 对 模型 进行 描述 ， 然 后 介绍 如 何 用 可 视 化 的 数 
据 流 图 表示 所 要 创建 的 模型 。 这 两 章 还 将 讨论 为 什么 要 以 特定 方式 构建 这 些 模型 ， 并 对 所 涉及 的 数学 难点 进行 讲解 ， 之 后 再 介绍 
如 何 利 用 TensorFlow 有 效 地 构建 这 些 模型 。 








所 要 研究 的 第 一 个 模型 是 卷 积 神经 网 络 CNN) ， 对 应 于 第 5 章 。 该 章 会 介绍 如 何 使 用 图 像 数 据 训 练 TensorFlow 模 型 ， 并 对 
卷 积 的 数学 原理 和 使 用 目的 展开 讨论 ， 同 时 还 将 介绍 如 何 将 图 像 裸 数据 转化 为 一 种 与 TensorFlow 兼 容 的 格式 ， 以 及 如 何 对 最 终 的 
输出 进行 测试 。 








第 6 章 将 探讨 如 何 使 用 TensorFlow 正 确 地 构建 循环 神经 网 络 (RNN) 模型 。 通 过 各 种 自然 语言 处 理 (NLP) 任务， 读者 将 了 
解 如 何 利 用 长 短 时 记忆 网 络 (LSTM) 以 及 如 何 将 预 训 练 的 词 癌 量 包含 到 模型 中 。 








第 四 部 分 其 他 提示 、 技 术 与 特性 





本 书 最 后 一 部 分 将 探讨 TensorFlow API 中 最 新 推出 的 特性 ， 内 容 包 括 如 何 准 备用 于 部 车 的 模型 、 一 些 有 用 的 编程 模式 ， 以 及 
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其 他 机 需 学 习 库 











TensorFlow 并 非 唯一 可 用 的 开源 机 器 学 习 库 。 下 面 列 出 一 份 可 用 于 深度 学 习 的 简短 开源 库 清 单 : 





Ca 使 专注 于 卷 积 神经 网 络 和 图 像 处 理 ， 使 用 C++ 语言 编写 。 


Chainer 是 另 一 个 灵活 的 机 器 学 习 Python 库 ， 文 持 单机 多 GPU 运算 。 








-CNTK 是 微软 公司 发 布 的 首 个 开源 机 器 学 习 库 ， 它 拥有 上 自己 的 模型 定义 语言 ， 文 持 声明 式 的 分 布 式 模型 构建 。 











.Deeplearmine4j 是 一 个 专门 针对 神经 网 络 的 Java 库 ， 它 易于 与 Spark、Hadoop 和 其 他 基于 Java 的 分 布 式 软件 集成 ， 有 具有 良好 的 可 
伸缩 性 。 


Nervana Neon 是 一 个 高 效 的 Python 机 器 学 习 库 ， 文 持 单 机 多 GPU 运算 。 





“Theano 是 一 个 极为 灵活 的 Python 机 器 学 习 库 ， 因 其 出 众 的 用 户 友 好 性 以 及 可 以 用 异常 简单 的 方式 定义 复杂 模型 等 特点 ， 在 科 
研 领 域 深 受 欢迎 。TensorFljow 的 AP[ 与 Theano API 最 为 相似 。 














Torch 是 一 个 专注 于 GPU 实现 的 机 响 学 习 库 ， 它 是 用 Lua 语 言 编 写 的 ， 并 由 来 目 寿 王家 大 公司 的 研究 团队 提供 文 持 。 








限于 篇 幅 ， 本 书 不 打算 对 上 述 这 些 库 的 优 缺 点 展开 深入 讨论 ， 但 如 果 有 时 间 ， 非 常 值得 深入 展开 。TensorFlow 的 作者 在 进行 
框 染 设计 时 ， 便 是 从 当中 的 几 个 库 汲 取 了 灵感 。 





KAS FAR 











虽然 本 书 主要 关注 TensorFlow API， 但 笔者 希望 读者 已 经 熟悉 大 量 数学 和 编程 概念 ， 包 括 : 





微 积 分 (一 元 和 多 元 ) 


JEREZ HEE PERYA) 


-基本 的 编程 原理 


-机 器 学 习 的 基本 概念 





此 外 ， 读 者 大 能 够 掌握 下 列 知 识 ， 则 将 从 本 书 中 获得 更 大 的 收获 : 
-拥有 Python 编 程 及 模块 组 织 的 经 验 

-拥有 NumPy 库 的 使 用 经 验 

-拥有 matplotib 库 的 使 用 经 验 


掌握 机 融 学 习 中 更 蜗 级 的 概念 ， 尤 其 是 前 馈 神 经 网 络 、 卷 积 神经 网 络 和 循环 神经 网 络 











在 适宜 的 时 候 ， 笔 者 会 通过 一 些 提示 信息 帮助 读者 重新 熟悉 那些 为 充分 理解 相关 数学 和 Python 概 念 所 必需 的 概念 。 


预期 的 收获 





通过 阅读 本 书 ， 读 者 将 掌握 以 下 内 容 : 
ww ai bbt.com A000000 





:TensorFlow 的 核心 API 


“TensorFlow 的 工作 流 : 数据 流 图 的 定义 和 数据 流 图 的 执行 


-如 何在 各 种 设备 上 安装 TensorFlow 





-组织 代码 和 项 目的 最 佳 实践 

:如何 用 TensorFlow 创 建 核心 机 器 学 习 模 型 
“如何 用 TensorFlow 实 现 RNN 和 CNN 
:如何 用 TensorFlow Serving 部 署 代码 


-利用 TensorBoard 分 析 模 型 的 基础 知识 





在 学 习 完 本 书 之 后 ， 如 果 读 者 想 对 TensorFlow 获 得 更 多 了 解 ， 可 参考 下 列 资源 : 





“TensorFlow 官 网 ”其 中 包含 最 新 的 文档 、API 和 入 门 材料 。 








“TensorFlow Github 代 码 库 ”在 此 ， 可 对 TensorFlow 的 开源 实现 做 出 贡献 ， 并 直接 对 源 代 码 进 行 审 查 。 





官方 发 布 的 用 TensorFlow 实 现 的 机 器 学 习 模 型 ”可 原封 不 动 地 使 用 这 些 模型 ， 也 可 稍 加 调整 以 适合 上 自己 的 设计 目的 。 
谷歌 研究 院 的 博客 (Google Research Blog) ”提供 了 来 自 谷 歌 的 有 关 TensorFlow 的 应 用 和 更 新 的 最 新 消息 。 


‘Kaggle ”获取 公开 数据 集 并 与 其 他 从 事 数据 分 析 工 作 的 人 开展 竞赛 的 绝 佳 网 站 。 





‘Data.gov ”美国 政府 的 门户 网 站 ， 从 中 可 找到 全 美国 的 公开 数据 集 。 


至 此 ,动员 演讲 "已 经 结束 ， 现 在 让 我 们 开局 本 书 的 学 习 之 旅 吧 ! 
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再 | 二 二 
引言 


安装 TensorFlow 


分 开启 TensorFlow 之 旅 
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1.1 





无 处 不 在 的 数据 
我 们 正 实 实在 在 地 处 于 “信息 时 代 ”*。 如 今 ， 各 种 数据 从 无 穷 无 尽 的 渠道 不 断 涌 入 : 智能 手机 、 手 表 、 汽 车 、 停 车 计时 表 、 和 家 
几乎 任何 一 种 能 够 说 出 名 字 的 技术 与 生 俱 来 都 具备 与 位 于 云端 的 某 个 数据 库 进 行 通信 的 能 力 。 在 看 似 无 限 的 存储 能 力 的 





HH E AF o 





文 持 下 ， 开 发 者 们 为 数据 仓库 选择 了 一 种 "更 多 即 是 更 好 "的 方法 ， 存 储 着 从 他 们 的 产品 和 客户 那里 收集 到 的 以 拍 字 节 CPB) 为 单 





位 计 的 海量 数据 。 
F 
FTIRA RA REE (GPU WS eK es A PA a, HAA SLi A RA A FE IER o 
机 器 学 习 成 功 应 用 于 垃圾 邮件 检测 、 产 品 





与 此 同时 ， 计 算 机 的 性 能 也 在 持续 提升 。 虽 然 CPU 的 及 展 速度 已 经 放 绥 ， 但 并 行 处 理 架构 取得 了 爆炸 式 的 及 展 。 一 同 主要 服 








机 絮 学 习 《 有 时 人 简 记 为 ML) 试图 利用 通用 的 数学 模型 回答 涉及 数据 的 特定 问题 
推荐 (向 客户 》、 预 测 商 品 的 价格 等 领域 已 有 多 年 。 近 年 来 ， 一 种 特殊 类 型 的 机 絮 学 习 范 式 在 几乎 所 有 领域 邵 取 得 了 无 数 巨 大 的 
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“深度 学 习 "已 成 为 用 于 描述 使 用 多 层 神 经 网 络 的 过 程 的 标准 术语 ， 多 层 神经 网 络 是 一 类 极为 灵活 的 可 利用 种 类 繁多 的 数学 方 
法 以 及 不 同 数学 方法 组 合 的 模型 。 这 类 模型 极为 强大 ， 但 直到 最 近 几 年 ， 人 们 才 有 能 力 卓有成效 地 利用 神经 网 络 ， 其 背后 原因 主 
要 有 两 点 ， 一 是 获取 足够 数量 的 数据 成 为 现实 ， 二 是 得 益 于 通用 GPU 的 快速 发 展 ， 多 层 神经 网 络 拥有 了 超越 其 他 机 器 学 习 方法 所 
必需 的 计算 能 力 中 。 











深度 学 习 的 强大 之 处 在 于 当 决 定 如 何 最 有 效 地 利用 数据 时 ， 它 能 够 赋予 模型 更 大 的 灵活 性 。 人 们 无 需 冒 目 猜测 应 当选 择 何 种 
输入 。 一 个 调 校 好 的 深度 学 习 模 型 可 以 接收 所 有 的 参数 ， 并 上 自动 确定 输入 值 的 有 用 高 阶 组 合 。 这 种 能 力 使 得 更 为 复杂 的 决 全 过程 
成 为 可 能 ， 并 使 计算 机 比 以 往 任何 时 候 都 更 加 和 镶 能 。 借 助 深度 学 习 ， 我 们 可 以 制造 出 具有 目 动 这 驶 能 力 的 汽车 和 能 够 理解 人 类 语 
首 的 电话 。 由 于 深度 学 习 的 出 现 ， 机 占 翻 译 、 人 上 脸 识别 、 预 测 分 析 、 机 器 作曲 以 及 无 数 的 人 工 智能 任务 部 成 为 可 能 ， 或 相 比 以 往 
有 了 显著 改进 。 

















虽然 深度 学 习 背 后 的 数学 概念 几 十 年 前 便 提 出 ， 但 致力 于 创建 和 训练 这 些 深 度 模 型 的 编程 库 是 近年 来 才 出 现 的。 遗憾 的 是 ， 
这 些 库 中 的 大 多 数 痢 会 在 灵活 性 和 生产 价值 之 间 进 行 取舍 。 灵 活 的 库 对 于 研究 新 的 模型 架构 极 有 价值 ， 但 常常 或 者 运行 效率 太 
低 ， 或 者 无 法 运用 于 产品 中 。 忆 一 方面 ， 虽 然 出 现 了 可 托管 在 分 布 式 硬件 上 的 快速 、 高 效 的 库 ， 但 它们 往往 专注 于 特定 类 型 的 神 
经 网 络 ， 并 不 适宜 研究 新 的 和 更 好 的 模型 。 这 就 使 决策 制定 者 陷于 两 难 境地 :; 是 应 当 用 缺乏 灵活 性 的 库 来 从 事 研 究 ， 以 避免 重新 
实现 代码 ， 还 是 应 当 在 研究 阶段 和 产品 开发 阶段 分 别 使 用 两 个 完全 不 同 的 库 ? 如 果 选 择 前 一 种 方案 ， 可 能 便 无 法 测试 不 同类 型 的 
神经 网 络 模型 ， 如 果 选 择 后 一 种 方案 ， 则 再 要 维护 可 能 调用 了 完全 不 同 的 两 套 API 的 代码 。 由 此 甚至 会 引发 另 一 个 问题 一 一 我 们 
是 侣 拥有 这 样 的 资源 ? 


























解决 这 个 两 难 问题 正 是 TensorFlow 的 设计 初 囊 。 








[Labs R= RA: 更 有 效 的 训练 算法 。 一 一 详 痢 注 
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1.3 TensorFlow: 一 个 现代 的 机 器 学 习 库 








TensorFlow 由 谷歌 于 2015 年 11 月 向 公众 正式 开源 ， 它 是 汲取 了 其 前 号 一 一 DistBele 任 创建 和 使 用 中 多 年 积累 的 经 验 与 教训 的 
产物 。TensorFlow 的 设计 目标 是 保证 灵活 性 、 高 效 性 、 恨 好 的 可 扩展 性 以 及 可 移植 性 。 任 何 形式 和 尺寸 的 计算 机 ， 从 智能 手机 到 
大 型 计算 集群 ， 都 可 运行 TensorFlow。TensorFlow 中 包含 了 可 即刻 将 训练 好 的 模型 产品 化 的 轻 量 级 软件 ， 有 效 地 消除 了 重新 实现 
模型 的 需求 。TensorFlow 拥 抱 创新 ， 喜 励 开 源 的 社区 参与 ， 但 也 拥有 一 家 大 公司 的 支持 、 引 导 ， 并 保持 一 定 的 稳定 性 。 由 于 其 强 
大 的 功能 ，TensorFlow 不 仅 适 合 个 人 使 用 ， 对 于 各 种 规模 的 公司 无论 是 初创 公司 ， 还 是 谷歌 这 样 的 大 公司 ) 也 都 非常 适合 。 








如 果 你 和 你 的 同事 拥有 数据 、 一 个 有 每 求解 的 问题 以 及 一 台 可 工作 的 计算 机 ， 那 么 很 兽 运 ，TensorFlow 下 是 你 们 一 直 寻 找 
的 “武林 秘籍 ”。 
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1.4 TensorFlow: 技术 概要 











本 小 节 将 给 出 一 些 关 于 TensorFlow 库 的 高 层 信 息 ， 如 它 是 什么 、 它 的 发 展 史 、 用 例 以 及 与 竞争 对 手 的 比较 。 决 策 制定 者 、 利 
益 相 关 者 以 及 任何 希望 了 解 TensorFlow 背 景 的 人 都 会 从 本 小 节 受 益 。 











谷歌 最 初 开发 的 大 规模 深度 学 习 工 具 是 谷歌 大 脑 (Googe Brain〉 团 队 研发 的 DistBelief。 自 创建 以 来 ， 它 便 被 数 十 个 团队 应 用 
于 包括 深度 神经 网 络 在 内 的 不 计 其 数 的 项 目 中 。 然 而 ， 像 许多 开创 性 的 工程 项 目 一 样 ，DistBelie 地 存在 一 些 限制 了 其 易 用 性 和 灵 
活性 的 设计 错误 。DistBelie 佣 成 之 后 的 某 个 时 间 ， 众 歌 发 起 了 新 的 项 目 ， 开 始 研 发 新 一 代 深 度 学 习 工 具 ， 其 设计 准备 借鉴 最 初 的 
DistBelief 在 使 用 中 总 结 的 教训 和 局 限 性 。 这 个 项 目 后 来 发 展 为 TensorFlow， 并 于 2015 年 11 月 正式 向 公众 开源 ， 接 着 迅速 成 为 一 个 
颇 受 欢迎 的 机 器 学 习 库 ， 如 今 已 被 成 功 运 用 于 自然 语言 处 理 、 人 工 智 能 、 计 算 机 视觉 和 预测 分 析 等 领域 。 
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1.5 何 为 TensorFlow 





下 面 以 一 种 高 层 观 点 来 介绍 TensorFlow， 以 帮助 读者 理解 它 试图 求解 的 问题 。 


1.5.1 解读 来 目 官 网 的 单 句 摘 述 





在 TensorFlow 的 官网 上 ， 针 对 访问 者 的 第 一 句 致知 便 是 下 列 〈 相 当 含 糊 的 ) 声明 : 





TensorFlow is an Open Source Software Library for Machine Intelligence 
这 人 句 话 的 下 方 ， 即 "About TensorFlow 下 的 一 段 还 有 这 样 一 句 描述 : 


TensorFlow!™ is an open source software library for numerical computation using data flow graphs. 





比 起 前 面 的 声明 ， 第 二 个 定义 更 为 具体 ， 但 对 那些 数学 或 技术 背景 不 强 的 人 而 言 ， 这 可 能 并 非 最 全 面 的 解释 。 下 面 我 们 对 其 
进行 解构 。 


1.Open Source (开源 ) 





TensorFlow 最 初 是 作为 谷歌 的 内 部 机 器 学 习 工 具 而 创建 的 ， 但 在 2015 年 11 月 ， 它 的 一 个 实现 被 开源 ， 所 采用 的 开源 协议 是 
Apache 2.0。 作 为 开源 软件 ， 任 何人 都 可 自由 下 载 、 修 改 和 使 用 其 代码 。 开 源 工程 师 可 对 代码 添加 功能 和 进行 改进 ， 并 提议 在 未 
来 版 本 中 打算 实施 的 修改 。 由 于 TensorFlow 深 受 广 大 开发 者 欢迎 ， 因 此 这 个 库 每 天 都 会 得 到 来 自 谷 歌 和 第 三 方 开 发 者 的 改进 。 








注意 ， 严 格 来 说 ， 我 们 只 能 称 之 为 “一 个 实现 ” 而 不 能 说 “TensorFlow 被 开源 。 从 技术 角度 讲 ，TensorFlow 是 《TensorFlow 白 
皮 书 》 所 质 述 的 一 个 用 于 数值 计算 的 内 部 接口 ， 其 内 部 实现 仍然 由 谷歌 维护 。 然 而 ， 开 源 实 现 与 谷歌 的 内 部 实现 之 间 的 差异 是 由 
与 其 他 内 部 软件 的 连接 造成 的 ， 并 非 谷 歌 有 意 " 将 好 东西 藏 着 掖 着 ”。 谷 歌 始 终 都 在 不 断 将 内 部 改进 推送 到 公共 代码 库 。 总 
之 ，TensorFlow 的 开源 版 本 包含 了 与 谷歌 的 内 部 版 本 完全 相同 的 功能 。 























在 本 书后 续 内 容 中 ， 当 提 到 “TensorFlow 夺 ， 笔 者 实际 上 指 的 是 其 开源 实现 。 


2.Library for Numerical Computation (数值 计算 库 》 





官网 的 定义 中 并 未 将 TensorFlow 称 为 一 个 “机 器 学 习 库 ”而 是 使 用 了 更 宽泛 的 短语 "数值 计算 ”虽然 TensorFlow 中 的 确 包 含 一 
个 模仿 了 具有 单行 建 模 功能 的 机 器 学 习 库 Scikit-Learm 的 名 为 ‘leary” (也 称 “Scikit Flow”〉 的 包 ， 但 需要 注意 的 是 ，TensorFlow 的 主要 
目标 并 非 是 提供 现成 的 机 器 学 习 解 决 方案 。 相 反 ，TensorFlow 提 供 了 一 个 可 使 用 户 用 数学 方法 从 零 开 始 定义 模型 的 函数 和 类 的 广 
泛 套 件 。 这 使 得 具有 一 定 技术 背景 的 用 尸 可 迅速 而 直观 地 创建 目 定 义 的 、 有 具有 较 高 灵活 性 的 模型 。 此 外 ， 虽 然 TensorFlow 为 面 问 
机 器 学 习 的 功能 提供 了 广泛 文 持 ， 但 它 也 非常 适合 做 复杂 的 数学 计算 。 然 而 ， 由 于 本 书 重 点 讨论 机 器 学 习 《〈 尤 其 是 深度 学 习 ) ， 






































因此 下 面 主 要 讲述 如 何 利 用 TensorFlow 创 建 ‘ 机 器 学 习 模 型 ”。 


3.Data Flow Graphs (数据 流 图 ) 





TensorFlow 的 计算 模型 是 有 癌 图 (directed graph) ， 其 中 每 个 节点 〈 通 香 以 圆圈 或 方 框 表示 ) 代表 了 一 些 函 数 或 计算 ， 而 边 
(通常 以 第 头 或 线段 表示 ) 代表 了 数值 、 和 窍 阵 或 张 量 。 











数据 流 图 极为 有 用 的 原因 如 下 。 首 先 ， 许 多 常见 的 机 器 学 习 模 型 ， 如 神经 网 络 ， 本 里 束 是 以 有 问 图 的 形式 表示 的 ， 及 用 数据 
流 图 无 疑 将 使 机 占 学 习 实践 者 的 实现 更 为 目 然 。 其 次 ， 通 过 将 计算 分 解 为 一 些小 的 、 容 易 微 分 的 环 市 ，TensorFlow 能 够 目 动 计算 








任意 节点 关于 其 他 对 第 一 个 节点 的 输出 产生 影响 的 任意 节点 的 导数 在 TensorFlow 中 称 为 “Operation”) 。 计 算 任何 节点 (尤其 是 
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输出 节点 ) 的 导数 或 梯度 的 能 力 对 于 搭建 机 器 学 习 模型 至 关 重 要 。 最 后 ， 通 过 计算 的 分 解 ， 将 计算 分 布 在 多 个 CPU、GPU 以 及 其 
他 计算 设备 上 更 加 容易 ， 即 只 需 将 完整 的 、 较 大 的 数据 法 图 分 解 为 一 些 较 小 的 计算 图 ， 并 让 每 台 计 算 设 备 负 贡 一 个 独立 的 计算 子 
图 〈 此 外 ， 还 需 一 定 的 逻辑 对 不 同 设 备 间 的 共 宇 信息 进行 调度 ) 。 

















补充 : 何 为 张 量 ? 





简 而 言 之 ， 张 量 是 一 个 n 维 矩阵 。 因 此 ，2 阶 张 量 等 价 于 标准 窍 阵 。 从 可 视 化 的 角度 ， 厂 将 mxn 鸣 矩阵 视 为 方形 数组 (m 个 数 
FE., MAAF) ， 则 可 将 mxmxm 的 张 量 视 为 立方 数组 〈m 个 数字 高 ，m 个 数字 宽 ，m 个 数字 深 ) o RWA. MRE EAB 
矩阵 数学 ， 完 全 可 以 按 和 矩阵 的 方式 来 看 待 张 量 。 


1.5.2 FRA) FHI AR AOL AA 


虽然 短语 “open source software library for numerical computation using data flow graphs” 的 信息 密度 非常 大 ， 但 并 未 涵盖 那些 真正 使 
TensorFlow 作 为 机 器 学 习 库 脱颖而出 的 重要 方面 。 下 面 列 出 一 些 成 束 TensorFlow 的 重要 组 成 。 


1.4) 4p sD BE 














上 文 在 介绍 数据 流 图 时 间接 提 到 ，TensorFlow 的 设计 目标 之 一 是 在 多 台 计 算 机 以 及 单机 多 CPU、 单 机 多 GPU 环境 中 具有 民 好 
的 可 伸缩 性 。 虽 然 ， 最 初 的 开源 实现 在 发 布 时 并 不 具备 分 布 式 功能 ， 但 目 0.8.0 版 本 起 ， 分 布 式 运行 时 已 成 为 TensorFlow 内 置 库 的 
一 部 分 。 虽 然 这 个 最 初版 本 的 分 布 式 API 有 些 豚 肿 ， 但 它 极其 强大 。 大 多 数 其 他 机 器 学 习 库 尚 不 具备 这 样 的 功能 ， 尤 其 值得 注意 
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的 是 ，TensorFlow 与 特定 集群 管理 器 (如 Kubernetes) 的 本 地 兼容 性 正在 得 到 改善 。 


2 


虽然 “TensorFlow 主 要 是 指 用 于 构建 和 训练 机 器 学 习 模 型 的 API， 但 TensorFlow 实 际 上 是 一 组 需 配合 使 用 的 软件 : 








TensorFlow 是 用 于 定义 机 器 学 习 模 型 、 用 数据 训练 模型 ， 并 将 模型 导出 供 后 续 使 用 的 API。 虽 然 实 际 的 计算 是 用 C++ 编写 
的 ， 但 主要 的 API 均 可 通过 Python 访问 。 这 使 得 数据 科学 家 和 工程 师 可 利用 Python 中 对 用 户 更 为 友好 的 环境 ， 而 将 实际 计算 交 给 高 
效 的、 经 过 编译 的 C++ 代码 。TensorFlow 虽 然 也 提供 了 一 套 可 执行 TensorFlow 和 模型 的 C++HAPI， 但 在 本 书 编写 之 时 它 还 具有 较 大 的 
局 限 性 ， 因 此 对 大 多 数 用 户 都 是 不 推荐 的 。 














“TensorBoard 是 一 个 包含 在 任意 标准 TensorFlow 安 装 中 的 图 可 视 化 软件 。 当 用 户 在 TensorFlow 中 引入 某 些 TensorBoard 的 特定 运 
算 时 ，TensorBoard 可 读 取 由 TensorFlow 计 算 图 导出 的 文件 ， 并 对 分 析 模 型 的 行为 提供 有 价值 的 参考 。 它 对 概括 统计 量 、 分 析 训 练 
过 程 以 及 调试 TensorFlow 代 码 都 极 有 帮助 。 学 会 尽早 并 尽 可 能 多 地 使 用 TensorBoard 会 为 使 用 TensorFlow 工 作 增 添 趣味 性 ， 并 带 来 
更 高 的 生产 效率 。 














“TensorFlow Serving 是 一 个 可 为 部 罗 预 训练 的 TensorFlow 模 型 市 来 便利 的 软件 。 利 用 内 置 的 TensorFlow 函 数 ， 用 户 可 将 自己 的 
模型 导出 到 可 由 TensorFlow Serving 在 本 地 读 取 的 文件 中 。 之 后 ， 它 会 启动 一 个 简单 的 高 性 能 服务 器 。 该 服务 器 可 接收 输入 数据 ， 
并 将 之 送 入 预 训练 的 模型 ， 然 后 将 模型 的 输出 结果 返回 。 此 外 ，TensorFlow Serving 还 可 以 在 旧 模 型 和 新 模型 之 间 无 颖 切换 ， 而 不 
会 给 最 终 用 户 带 来 任何 停机 时 间 。 虽 然 Serving 可 能 是 TensorFlow 生 态 系统 中 认可 度 最 低 的 组 成 ， 它 却 可 能 是 使 TensorFljow 有 别 于 其 
他 竞争 者 的 重要 因素 。 将 Serving 纳 入 生产 环境 可 避免 用 户 重新 实现 自己 的 模型 一 一 他 们 只 需 使 用 TensorFlow 导 出 的 文件 。 
TensorFlow Serving 完 全 是 用 C++ 编写 的 ， 其 API 也 只 能 通过 C++ 访问 。 


























笔者 相信 ， 只 有 深入 了 解 上 述 所 有 软件 之 间 的 联系 ， 并 熟练 掌握 它们 的 联合 使 用 方法 ， 方 可 真正 使 TensorFlow 物 义 其 用 。 因 
此 ， 本 书 会 涵盖 上 述 三 个 软件 的 用 法 。 
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1.6 ” 何 时 使 用 TensorFlow 


下 面 介 绍 一 些 TensorFlow 的 用 例 。 一 般 而 言 ， 对 于 大 多 数 机 器 学 习 任 务 ，TensorFlow 都 是 一 个 很 好 的 选择 。 下 面 简 单列 出 了 


TensorFlow 尤 其 适合 的 一 些 场 合 。 





研究 、 开 发 和 达 代 新 的 机 器 学 习 染 构 。 由 于 TensorFlow 极 为 灵活 ， 因 此 在 构建 新 颖 的 、 测 试 较 少 的 模型 时 非常 有 用 。 而 使 
用 东 些 库 时 ， 用 户 只 能 获取 对 实现 原型 有 帮助 的 具有 较 强 刚性 的 了 预 建 模型 ， 而 无 法 对 其 进行 修改 。 





将 模型 从 训练 直接 切换 到 部 署 。 如 前 所 述 ，TensorFlow Serving 使 用 户 可 实现 训练 到 部 署 的 快速 切换 。 因 此 ， 在 创建 依赖 于 
机 器 学 习 模型 的 产品 时 ， 使 用 TensorFlow 便 可 实现 快速 和 迭代。 如果 你 的 团队 需要 保持 较 快 的 开发 进度 ， 或 者 你 只 是 没有 用 C++、 
Java 等 语言 重新 实现 某 个 模型 的 资源 ，TensorFlow 可 赋予 你 的 团队 快速 实现 产品 的 能 














-实现 已 有 的 复杂 架构 。 一 旦 用 户 和 掌握 了 如 何 阅 读 可 视 化 的 计算 图 ， 并 使 用 TensorFlow 来 进行 构建 ， 他 们 便 有 能 力 用 
TensorFlow 实 现 最 新 的 研究 文献 中 所 描述 的 模型 。 在 构建 未 来 的 模型 ， 或 甚至 在 对 用 户 的 当前 模型 进行 严谨 的 改进 时 ， 这 种 能 力 
可 提供 非 肖 有 价值 的 见解 。 





大 规模 分 布 式 柑 型 。 在 面 对 多 种 设备 时 ，TensorFlow 表 现 出 晶 越 的 同上 可 扩展 性 。 它 已 经 开始 在 谷歌 内 部 的 各 个 项 目 中 逐 
步 取 代 DistBelef。 随 独 最 近 分 布 式 运行 时 的 及 布 ， 我 们 将 看 到 越 来 越 多 的 将 TensorFlow 运 行 于 多 全 硬件 服务 磺 和 云端 虚拟 机 的 用 
例 。 





为 移动 / 陪 入 式 系 统 创建 和 训练 模型 。 虽 然 TensorFlow 主 要 关注 向 上 的 扩展 Cscalingup) ， 对 于 辐 下 的 扩展 (scaling down) ， 
它 同 样 有 优异 的 表现 。TensorFlow 的 灵活 性 之 一 体现 在 它 可 轻松 扩展 到 计算 性 能 不 高 的 系统 中 。 例 如 ， 它 可 在 安 章 设备 以 及 像 树 
FEIR (Raspberry Pi) 这 样 的 微型 计算 机 中 运行 。TensorFlow 代 码 库 中 包含 了 一 个 在 安 卓 系统 中 运行 预 训 练 模型 的 例 程 。 
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1.7 TensorFlowH)(t #4 


1. AVE 








AX > TensorFlow fF iit a TEE. CHAP BEA BPE, ROR ESN RAIN, Tt MSG] BT 
的 东西 。 








‘TensorFlow API 很 稳定 ， 维 护 者 始终 在 努力 确保 每 次 改动 都 向 下 兼容 。 





'TensorFlow 与 NumPy 无 颖 集成 ， 可 使 大 多 数 了 解 Python 的 数据 科学 家 如 鱼 得 水 。 


不同 于 其 他 库 ，TensorFlow 不 占 编 译 时 间 。 这 残 使 用 户 可 快速 验证 目 己 的 想法 ， 而 省 去 了 专门 的 等 待 时间。 








:日 前 已 有 多 种 高 层 接口 构建 在 TensorFlow 之 上， 如 Keras 和 SKEFlow。 这 就 使 得 即便 用 户 不 希望 动手 实现 整个 模型 ， 也 可 以 利 
用 TensorFlow 的 优势 。 








:TensorFlow 能 够 运行 在 不 同类 型 和 尺寸 的 机 器 之 上 。 这 使 得 TensorFlow 无 论 是 在 超级 计算 机 上 ， 还 是 在 其 入 式 系统 ， 或 任何 
其 他 介 于 两 者 之 间 的 计算 机 上 都 有 用 武之 地 。 











TensorFlow 的 分 布 式 架构 使 得 在 大 规模 数据 集 上 的 模型 训练 可 在 合理 的 时 间 内 完成 。 





:TensorFlow 可 利用 CPU、GPU， 或 同时 使 用 这 两 者 。 


3. 高 效 性 


il 








` 当 TensorFlow 的 第 一 个 版 本 发 布 时 ， 它 在 很 多 流行 的 机 器 学 习 基 准 测试 中 都 非常 低 效 。 从 那 时 起 ，TensorFlow 的 开发 团队 便 
投入 大 量 的 时 间 和 精力 对 TensorFlow 代 人 码 的 大 部 分 实现 进行 改进 。 如 今 ，TensorFlow 中 大 部 分 库 的 性 能 已 有 了 显著 提升 ， 己 成 为 
众多 开源 机 器 学 习 框 架 中 居于 榜首 位 置 的 有 力 苋 争 者 。 




















TensorFlow 的 效率 仍 在 持续 地 得 到 改进 ， 因 为 有 越 来 越 多 的 开 及 者 正在 共同 努力 融 来 更 好 的 实现 。 


44x Ja HF 


“TensorFlow 为 谷歌 所 支持 。 谷 歌 已 为 其 投入 巨大 的 资源 ， 因 为 它 希 望 TensorFlow 成 为 机 器 学 习 研 究 者 和 开发 者 的 通用 语言 。 
此 外 ， 谷 歌 也 在 利用 TensorFlow 完 成 其 日 党 工作 ， 并 且 通 过 投资 来 为 TensorFlow 提 供 持续 不 断 的 支持 。 


-围绕 TensorFlow 已 经 形成 了 一 个 不 可 思议 的 社区 ， 从 社区 中 的 知名 成 员 或 GitHub 上 的 知名 开发 者 那里 得 到 回应 相对 比较 容 





-谷歌 已 经 用 布 了 各 二 用 TensorFlow 预 训练 的 机 口 学 习 模型 。 它 们 可 供 免 费 使 用 ， 使 得 无 需 大 量 数据 的 流水 线 便 可 迅速 实现 原 
型 系统 。 


.额外 特性 
: 当 需 要 对 模型 进行 调试 和 可 视 化 时 ，TensorBoard 便 体现 出 极为 重要 的 价值 ， 而 在 其 他 机 器 学 习 库 中 ， 并 无 类 似 的 功能 。 


‘TensorFlow Serving 可 能 是 会 使 得 更 多 的 初创 公司 将 服务 和 资源 投入 到 机 需 学 习 领 域 的 软件 ， 因 为 重新 实现 代码 来 部 普 东 个 模 


型 所 需 付 出 的 代价 绝对 不 可 小 讽 。 
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1.8 ”使 用 TensorFlow 所 面临 的 挑战 


Lap A USC HE TAN GRA 





里 然 分 布 式 运行 时 已 正式 肥 布 ， 但 在 TensorFlow 中 使 用 这 种 特性 却 并 非 想 象 中 那样 容易 。 在 本 书写 作 之 时 ， 为 使 用 该 特性 ， 
需 手 工 定义 每 台 设 备 的 角色 ， 这 种 工作 既 乏 味 叉 容易 出 错 。 由 于 它 古 一 种 全 新 的 特性 ， 因 此 可 供 学 习 的 例 程 较 少 ， 想 必 未 来 的 版 
本 应 当 会 有 所 改进 。 如 前 文 所 述 ， 对 Kubernetes 的 支持 已 进入 开 友 流水 线 ， 但 到 目前 为 止 ， 它 仍然 尚未 完成 。 





2. 实 现 定制 代码 的 技巧 性 较 强 





里 然 天 于 如 何 用 TensorFlow 创 建 用 户 上 自己 的 运算 有 一 份 官 方 指南 可 供 参 考 ， 但 要 将 定制 的 代码 实现 到 TensorFlow 中 仍然 碳 费 
周折 。 然 而 ， 如 果 和 希望 对 主 代 码 库 做 出 贡献 ， 谷 歌 开 发 团队 会 快速 回答 你 的 问题 ， 并 碍 看 你 所 提 区 的 代码 ， 以 便 为 吸纳 你 的 工作 
成 果 进 行 准备 。 


IRER EURIA 








如 果 你 是 一 名 经 验 丰富 的 机 器 学 习 专家 ， 并 对 其 他 框架 具备 深入 的 了 解 ， 你 可 能 会 发 现 一 些 自己 喜欢 的 虽 小 但 十 分 有 用 的 特 
性 尚未 在 TensorFlow 中 实现 。 通 常 ， 你 想 要 的 这 种 特性 在 TensorFlow 中 会 有 一 些 替 代 方 案 ， 但 这 可 能 无 法 阻止 你 的 抱怨 5“ 为 什么 它 
还 未 得 到 本 地 支持 ? ” 








ww ai bbt.com ODDODODOD 





1.9 ”高歌 独 进 


无 需 多 言 ， 笔 者 对 TensorFlow 的 未 来 充满 期 待 ， 而 且 笔 者 对 帮助 你 开始 使 用 这 样 一 球 强 大 工具 感到 激动 万 分 。 下 一 章 将 介 








如 何 安 装 TensorFlow， 并 对 TensorFlow 的 核心 库 、 基 本 使 用 模式 以 及 环境 进行 全 面 讲 解 。 
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H2 ”安装 TensofFlow 


在 开始 使 用 TensorFlow 之 前 ， 需 要 先 将 其 安装 到 计算 机 中 。 和 幸运 的 是 ，TensorFlow 官 网 提供 了 一 份 在 Linux 和 Mac OS X 系 统 中 
安装 TensorFlow 的 完整 分 步 指南 。 本 章 对 安装 中 将 会 出 现 的 不 同 选项 如 何 选择 给 出 了 一 些 建议 ， 并 提供 了 一 些 关 于 能 够 与 
TensorFlow 很 好 地 集成 的 其 他 第 三 方 软件 的 信息 。 此 外 ， 本 章 还 给 出 一 份 从 源 代 码 构 建 和 安装 TensorFlow 的 参考 ， 以 帮助 用 户 安 
装 融 有 GPU 文 持 的 TensorFlow。 








如 果 用 户 对 Pip/Conda、 虚 拟 环境 ， 或 从 源码 安装 程序 已 经 非常 熟悉 ， 则 可 放心 地 参考 如 下 官方 指南 : 


https://www.tensorflow.org/versions/master/get_started/os_setup.html 
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2.1 选择 安装 环境 








许多 软件 都 会 使 用 一 些 库 和 独立 维护 的 软件 包 。 对 于 开发 者 而 言 ， 这 是 一 件 好 事 ， 因 为 这 种 做 法 有 利于 代码 复 用 ， 而 且 他 们 
可 专注 于 创建 新 的 功能 ， 而 无 需 重 复 造 轮 。 然 而 ， 这 种 做 法 也 会 付出 一 定 的 代价 。 如 果 东 个 程序 的 正常 运行 必须 依赖 于 另 一 个 
库 ， 则 用 户 或 这 亚 软 件 必须 确保 任何 运行 该 程序 代码 的 机 璐 都 已 安 半 了 依赖 库 。 乍 看 上 去 ， 这 几乎 不 算 一 个 问题 
软件 一 起 安 疼 所 需 的 依赖 库 不 就 行 了 ? 不 于 的 是 ， 这 种 方法 会 市 来 一 些 意 想 不 到 的 后 东 ， 而 且 冲 各 如 此 。 











只 需 随 这 款 























设想 如 下 场景 : 你 找到 一 鞭 出 色 的 软件 一 一 软件 A， 下 载 后 开始 安装 。 在 执行 其 安装 脚本 时 ， 软 件 A 需 要 另外 一 款 依赖 软 
件 。 如 果 你 的 计算 机 中 缺少 这 个 依赖 软件 ， 则 需 进 行 安 装 。 我 们 称 之 为 软件 依赖 项 〈sofkware dependency) 。 假 设 该 依赖 项 的 当 
前 版 本 号 为 1.0。 软 件 A 移 安装 1.0 版 的 依赖 项 ， 然 后 再 对 上 自身 进行 安装 ， 一 切 都 进行 得 很 顺利 。 再 假设 将 来 的 某 个 时 候 ， 你 倡 然 
发 现 了 男 一 款 锅 望 安装 的 软件 一 一 软件 B。 软 件 B 需 要 使 用 2.0 版 的 依赖 项 ， 相 对 于 1.0 版 ， 这 个 版 本 做 出 了 重大 改进 ， 且 不 具备 问 
下 兼容 性 。 鉴 于 这 个 依赖 项 的 发 行 方式 ， 无 法 做 到 1.0 和 2.0 两 个 版 本 同时 运行 ， 因 为 这 将 导致 使 用 它 时 产生 二 义 性 (这 两 个 版 本 
的 都 会 作为 依赖 项 被 导入 ， 应 使 用 哪个 版 本 ? ) 。 最 终 ， 软 件 B 将 用 2.0 版 的 依赖 项 覆 兰 1.0 版 ， 并 完成 目 映 的 安装 。 经 历 一 番 艰 
革 后 ， 你 才 发 现 软件 A 与 2.0 版 依赖 项 不 兼容 ， 因 此 完全 被 破坏 ， 情 况 顿时 变 得 很 糟 。 如 何 才能 在 同一 台 机 器 上 既 可 运行 软件 A， 
也 可 运行 软件 B? 这 个 问题 非常 重要 ， 因 为 TensorFlow 也 依赖 于 若干 开源 软件 。 利 用 Python( 用 于 将 TensorFlow 打 包 的 编程 语 
言 》， 可 采取 多 种 方式 避免 上 述 依赖 冲突 问题 。 
































代码 库 内 部 的 软件 包 依 赖 。 无 需 依赖 于 系统 级 的 软件 包 或 库 ， 开 发 者 可 将 所 需 版 本 的 依赖 库 放 在 目 己 的 代码 中 ， 并 在 局 部 
引用 。 按 照 这 种 方式 ， 软 件 押 希 的 所 有 代码 都 是 可 直接 操控 的 ， 不 会 受到 外 部 变动 的 影响 。 然 而 ， 这 种 方式 并 非 无 懈 可 击 。 首 
先 ， 它 增加 了 安装 该 软件 所 需 的 磁盘 空间 ， 这 意味 着 安装 时 间 更 长 、 使 用 成 本 更 高 。 其 次 ， 用 户 可 能 已 经 以 全 局 方式 安装 了 依赖 
库 ， 这 意味 着 局 部 版 本 完全 是 多 余 的， 会 占用 不 必要 的 空间 。 最 后 ， 依 赖 库 在 将 来 可 能 会 推出 修复 知 干 严重 安全 漏洞 的 关键 的 、 
保持 问 下 羔 容 性 的 更 新 。 这 时 ， 对 代码 库 中 依赖 库 的 更 新 将 无 法 借助 软件 包 管 理 囊 ， 而 只 能 由 软件 开发 者 手工 完成 。 不 洱 的 是 ， 
最 终 用 户 对 此 无 从 插手 ， 因 为 何 时 直接 包含 依赖 库 完全 是 由 开发 者 决定 的 。 有 一 些 依赖 库 由 于 没有 被 包含 进 TensorFlow， 因 此 必 
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-使 用 依赖 环境 。 一 些 软件 包 管 理 器 中 包含 可 创建 虚拟 环境 的 相关 软件 。 在 一 个 环境 中 可 完全 独立 地 维护 特定 版 本 的 软件 而 
不 受 其 他 环境 的 影响 。 借 助 Python， 有 多 种 选择 。 对 于 Python 的 标准 发 行 版，Virtualenv 古 直接 可 用 的 。 如 果 使 用 的 是 Anaconda， 它 
会 包含 一 个 内 置 的 虚拟 环境 系统 及 其 软件 包 管理 器 一 一 Conda。 稍 后 ， 笔 者 将 会 介绍 如 何 使 用 这 两 种 工具 安装 TensorFlow。 








使 用 容器 。 容 器 (如 Docker) 是 将 软件 与 完整 的 文件 系统 ， 包 括 其 运行 时 和 依赖 库 打 包 的 轻 量 级 方案 。 因 此 ， 任 何 可 运行 
一 个 容器 的 机 器 《包括 虚拟 机 在 内 ) 都 能 够 与 任何 运行 该 容器 的 其 他 机 器 对 其 中 所 包含 的 软件 获得 完全 相同 的 运行 效果 。 与 简单 
地 激活 Virtualenv 环 境 或 Conda 环 境 相 比 ， 虽 然 从 Docker 中 启动 TensorFlow 需 要 略 多 一 点 的 步骤， 但 当 需 要 将 代码 在 不 同 实 例 〈 无 论 
是 虚拟 机 还 是 物理 的 服务 器 ) 上 进行 部 区 时 ， 它 在 不 同 运行 时 环境 中 的 一 致 性 使 其 成 为 无 价 之 罕 。 下 文 将 介绍 如 何 安 狠 Docker， 
并 创建 你 目 己 的 TensorFlow 容 颖 《以 及 如 何 使 用 官方 的 TensorFlow 镜 像 〉。 














一 般 而 言 ， 如 果 准 备 在 单机 上 安装 和 使 用 TensorFlow， 笔 者 建议 采用 Virtualenvy 或 Conda 的 虚拟 环境 。 它 们 能 够 以 较 小 的 代价 解 
决 依赖 冲突 问题 ， 且 易于 设置 。 一 旦 创建 完毕 ， 便 几乎 一 劳 永 逸 。 如 果 准 备 将 TensorFlow 代 码 部 署 到 一 台 或 多 台 服 务 器 中 ， 则 值 
得 创建 一 个 Docker 容 器 镜像 。 昌 然 所 需 的 步 又 略 多 ， 但 却 会 大 大 降低 在 多 服务 占 上 部 蜀 的 成 本 。 笔 者 不 推荐 既 不 使 用 虚拟 环境 ， 
也 不 使 用 容器 的 TensorFlow 安 装 方法 。 
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2.2 Jupyter Notebook 与 matplotlib 


在 数据 科学 工作 流 中 频繁 使 用 的 两 款 出 色 的 软件 是 Jupyter Notebook 和 matplotlb。 它 们 与 NumPy 协 同 使 用 已 有 多 
年 ，TensorFlow 与 NumPy 的 又 密集 成 使 得 用 户 可 采用 他 们 熟悉 的 工作 模式 。 两 者 均 为 开源 软件 ， 且 采用 的 许可 协议 均 为 BSD。 

















利用 Jupyter Notebook (fil 4 NiPython Notebook) ， 可 交互 式 地 编写 包含 代码 、 文 本 、 输 出 、LaTeX 及 其 他 可 视 化 结果 的 文 
档 。 这 使 得 它 在 依据 探索 分 析 创 建 报告 时 极为 有 用 ， 因 为 可 将 创建 可 视 化 图 表 的 代码 直接 在 图 表 的 劳 边 展 示 出 来 ， 也 可 利用 
Markdown 单 元 以 格式 丰富 的 文本 分 享 你 对 于 某 个 特定 方法 的 见解 。 此 外 ， 对 于 设计 原型 的 想法 ，Jupyter Notebook 也 极为 出 色 ， 
因为 你 可 回顾 和 编辑 部 分 代码 ， 然 后 从 笔记 本 中 直接 运行 。 与 许多 其 他 要 求 逐 行 执行 代码 的 交互 式 Python 环 境 不 同 ，Jupyter 
Notebook 允 许 将 代码 写 入 逻辑 块 中 ， 这 使 得 调试 脚本 中 特定 部 分 相对 容易 。 在 TensorFlow 中 ， 这 个 特性 是 极 有 价值 的 ， 因 为 典型 
的 TensorFlow 程 序 已 经 被 划分 为 "计算 图 的 定义 ?和 "运行 计算 图 "两 部 分 。 



































matplotib 是 一 个 绘图 库 ， 它 允许 用 户 使 用 Python 创建 动态 的 、 自 定义 的 可 视 化 结果 。 它 与 NumPy 无 颖 集成 ， 其 绘图 结果 可 直 
接 显 示 在 Jupyter Notebook 中 。matplotib 也 可 将 数值 数据 以 图 像 的 形式 可 视 化 ， 这 个 功能 可 用 于 验证 图 像 识 别 任 务 的 输出 ， 并 将 神 
经 网 络 的 内 部 单元 可 视 化 。 构 建 在 Matplotib 之 上 的 其 他 层 ， 如 Seaborn， 可 用 于 增强 其 功能 。 
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2.3 创建 Virtualenv 环 境 


Ly 


为 保持 依赖 项 的 干净 整洁 ， 下 面 介 绍 如 何 利 用 Virtualenv 创 建 虚 拟 的 Python 环境 。 首 先 需 要 确保 Virtualenv 与 pp (Pythonit!) 4 Has) 均 被 安装 。 运 行 下 列 命令 
(根据 操作 系统 的 不 同 ， 选 择 相应 的 命令 ): 


1. 64 位 Linux 系统 


# Python 2.7 

$ sudo apt-get install python-pip python-dev python- 
virtualenv 

# Python 3 

$ sudo apt-get install python3-pip python3-dev python3- 
virtualenv 


2. Mac OS X 


9 sudo easy_install pip 
$ sudo pip install --upgrade virtualenv 


人 至 此， 准备 工作 已 完成 ， 接 下 来 创建 一 个 包含 该 虚拟 环境 的 目录 ， 以 及 将 来 可 能 会 创建 的 任意 虚拟 环境 : 


$ sudo mkdir ~/env 





接 下 来 ， 利 用 Virtualevn 命 令 创 建 虚 拟 环境 。 在 本 例 中 ， 它 位 于 ~/enVtensorflow 下 。 

$ virtualenv --system-site-packages ~/env/tensorflow 
一 旦 创建 完毕 ， 便 可 利用 source 命 令 激 活该 虚拟 环境 : 

$ source ~/env/tensorflow/bin/activate 


+ 注意 ， 命 令 提示 窗口 中 现在 多 了 一 个 "(tensorflow)" 提 示 符 
(tensorflow)$ 





我 们 希望 当 使 用 pip 安 装 任何 软件 时 都 确保 该 虚拟 环境 处 于 活动 状态 ， 从 而 使 Virtualenv 能 够 对 各 依赖 库 进行 奶 踪 。 
虚拟 环境 使 用 完毕 后 ， 需 用 下 列 deactivate 命 令 将 其 关闭 : 
(tensorflow)$ deactivate 


由 于 将 频繁 使 用 虚拟 环境 ， 创 建 一 个 激活 虚拟 环境 的 快捷 方式 而 非 每 次 键入 完整 的 source... 命 令 便 很 有 价值 。 接 下 来 的 命令 将 向 ~/bashrc 文 件 添 加 一 个 bash 别 
名 ， 使 在 需要 启动 虚拟 环境 时 只 需 键 入 tensorfow: 


$ sudo printf '\nalias tensorflow="source ~/env/ 
tensorflow/bin/activate"' >> ~/ .bashrc 


要 测试 该 快捷 方式 是 否 生效 ， 可 重启 bash 终 端 ， 并 键入 tensorflow: 
S tensorfLow 


# 与 之 前 一 样 ， 提 示 香 将 发 生 改 变 
(tensorflow)$ 
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2.4 TensorFlow 的 简易 安装 


如 果 只 是 希望 尽快 上 手 实践 一 些 入 门 的 例子 ， 而 不 关心 是 否 有 GPU 文 持 ， 则 可 从 TensorFlow 官 方 预制 的 二 进 制 安装 程序 中 择 一 。 请 确保 你 的 Virtualenv 环 境 处 
于 活动 状态 ， 并 运行 下 列 与 你 的 操作 系统 和 Python 版 本 对 应 的 命令 : 


1. Linux 64 位 安装 


# Linux, Python 2.7 

(tensorflow)$ pip install --upgrade https:// 
storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0- 
cp27-none-linux x86 64.whl 


# Linux 64-bit, Python 3.4 

(tensorflow)$ pip3 install --upgrade https:// 
storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0- 
cp34-cp34m- Linux x86 64.whl 


# Linux 64-bit, Python 3.5 


(tensorflow)$ pip3 install --upgrade https:// 
storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0- 
cp35-cp35m- linux x86 64.whl 


2. Mac OS X ZH 


# Mac OS X, Python 2.7: 

(tensorflow)$ pip install --upgrade https:// 
storage.googleapis.com/tensorflow/mac/tensorflow-0.9.0-py2- 
none-any.whl 


# Mac OS X, Python 3.4+ 

(tensorflow)S pip3 install --upgrade https:// 
storage.googleapis.com/tensorflow/mac/tensorflow-0.9.0-py3- 
none-any.whl 


从 技术 角度 ， 可 以 使 用 这 有 GPU 文 持 的 预制 TensorFlow 二 进 制 安装 程序 ， 但 它 需 要 特定 版 本 的 NVIDIA 软 件 ， 且 与 未 来 版 本 不 兼容 。 
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2.$ 源码 构建 及 安装 实例 : 在 64 位 Ubuntu Linux 上 安装 GPU 版 TensorFlow 


如 果 和 希望 使 用 融 有 GPU 文 持 的 TensorFlow， 那 么 最 可 能 的 选择 是 从 源码 构建 和 安装 。 本 节 给 出 了 一 个 完整 的 安 半 参考 实例 ， 详 细 介 绍 了 安装 和 运行 TensorFlow 所 需 
的 每 一 具体 步 又。 请 注意 ， 本 示例 中 的 操作 系统 为 64 位 Ubuntu Linux 发 行 版 ， 因 此 如 果 你 使 用 的 是 其 他 Linux 发 行 版 ， 则 可 能 需要 对 某 些 命令 进行 修改 (如 apt-get) 。 如 
果 希 望 在 Mac OS X 上 从 源码 构建 TensorFlow， 笔 者 推荐 TensorFlow 官 网 的 安装 指南 : 





https//www.tensorflow.org/versions/master/get_started/os_setup.html#installation- for-mac-os-x 


这 里 假定 你 已 安装 了 python-pip、python-dev 和 python-virtualenv。 
构建 TensorFlow 需 要 事先 安装 少量 依赖 库 。 按 照 所 安装 的 Python 版 本 ， 执 行 下 列 命令 : 
1. Python 2.7 


$ sudo apt-get install python-numpy python-wheel python- 
imaging swig 


2. Python 3 


$ sudo apt-get install python3-numpy python3-wheel python3- 
imaging swig 


2.5.2 ”安装 Bazel 








Baze 是 一 款 基 于 谷歌 内 部 软件 的 开源 构建 工具 。 在 本 书写 作 之 时 ， 为 从 源码 构建 TensorFlow， 需 要 Bazel， 因 此 我 们 必须 自行 安装 该 软件 。Baze] 官 网 中 有 一 份 非 常 


完整 的 安装 指南 ， 本 节 只 介绍 一 些 最 基本 的 步骤 。 
第 一 件 事 是 确保 系统 中 已 安装 Java Development Kit8 (JDK 8) 。 下 列 命 令 会 将 Oracle JDK 8 代码 库 添 加 到 apt 产 中 ， 然 后 进行 安装 ; 


$ sudo apt-get install software-properties-common 
$ sudo add-apt-repository ppa:webupd8team/ java 

$ sudo apt-get update 

$ sudo apt-get install oracle-java8-installer 





对 于 Ubuntu 15.10 版 及 后 续 版 本 ， 也 可 安装 Oracle JDK 的 蔡 代 软件 OpenJDK 8。 安 装 后 者 更 为 容易 ， 也 是 笔者 所 推荐 的 ， 可 使 用 下 列 命令 在 系统 中 安装 OpenJDK: 


# Ubuntu 15.10 

$ sudo apt-get install openjdk-8- jdk 
# Ubuntu 16.04 

$ sudo apt-get install default-jdk 


在 继续 下 一 步 之 前 ， 请 验证 Java 已 被 正确 安装 : 


$ java -version 

# 应 当 出 现 与 下 面 的 输出 类 似 的 信息 

java version "1.8.0 91" 

Java(TM) SE Runtime Environment (build 1.8.0 91-b14) 

Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed 
mode) 


Java 安 装 完 毕 后 ， 还 需要 安装 少量 其 他 依赖 库 : 


$ sudo apt-get install pkg-config zip g++ zlibig-dev unzip 


接 下 来 ， 需 要 下 载 Bazel 安 装 脚本 。 为 此 ， 既 可 前 往 GitHub 上 的 Bazel 发 行 页 面 ， 也 可 使 用 下 列 wWget 命 令 。 请 注意 ， 对 于 Ubuntu 系 统 ， 需 要 下 载 ‘bazel-xxx-installer-linux- 
x86 64.sh”: 
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# 下 载 Bazel 0.3.0 
$ wget https://github.com/bazelbuild/bazel/releases/download/ 
0.3.0/bazel-0.3.0-installer-lLinux-x86_64.sh 


最 后 ， 将 所 下 载 的 安装 脚本 的 权限 修改 为 可 执行 的 ， 并 运行 它 : 


$ chmod +x bazel-<version>-installer-Linux-x86_64.sh 
$ ./bazel-<version>-instaLlLler-linux-x86_64.sh --user 
通过 使 用 --user 选 项 ，Baze] 将 被 安装 到 $HOMEbin 目 录 。 为 确保 该 路 径 被 添加 到 环境 变量 PATH 中 ， 可 通过 下 列 命令 对 ~/.bashrc 进 行 更 新 : 


$ sudo printf '\nexport PATH="SPATH:SHOME/bin"' >> ~/ .bashrc 


重启 bash 终 端 ， 并 运行 bazel， 以 确保 一 切 可 正常 工作 : 


$ bazel version 

# 您 应 当 可 以 看 到 类 似 下 列 信息 
Build label: 0.3.0 

Build target: ... 


非常 棒 ! 接 下 来 ， 需 要 安装 一 些 能 够 支持 GPU 运算 的 依赖 软件 。 
2.5.3 ”安装 CUDA 软 件 〈 仅 限 NVIDIA GPU) 


如 果 拥 有 一 款 支持 CUDA 的 NVIDIA GPU， 则 可 安装 带 有 GPU 支持 的 TensorFlow。 支 持 CUDA 的 显卡 清单 可 从 下 列 网 址 获取 : 


https//developer.nvidia.conycuda-gpus 








除了 确保 你 的 GPU 榜 上 有 和 名， 还 需 注意 与 显卡 “计算 能 力 (conmpute capability) 有关 的 量化 数字 。 例 如 ，GeForce GTX 1080 的 计算 能 力 为 6.1， 而 GeForce GTX TITAN 
X 的 计算 能 力 为 5.2。 在 编译 TensorFlow 时 需要 用 到 这 个 数字 。 在 确定 可 利用 CUDA 后 ， 要 做 的 第 一 件 事 便 是 注册 NVIDIA 的 “Accelerated Computer Developer Program’. Yy 
了 下 载 安 装 CUDA 和 cuDNN 上 所 需 的 所 有 文件 ， 这 个 步骤 是 必需 的 。 注 册 链 接 如 下 : 


https://developer.nvidia.con/accelerated-computing- developer 
当 注 册 完 成 后 ， 你 会 希望 下 载 CUDA。 前 往 下 列 链接 ， 并 使 用 如 下 操作 指南 : 


https://developer.nvidia.con/cuda-downloads 


Click on the green buttons that describe your target platform. Only supported platforms will be shown. CUDA Quick Start Guide 








Release Notes 
Operating System EULA 

Online Documentation 
Architecture @ CUDA Toolkit Overview 

Download Checksums 
Distribution Legacy Toolkits 
Version 
installer Type @ 





Download Target Installer for Linux Ubuntu 14.04 x86 64 





cuda-repo-ubuntu1404-7-5-local_7.5-18_amdé64.deb [md5sum: 5cf65b8139d70270d9234d5tf4d697c7) 





Installation Instructions: 
1. ‘sudo dpkg -i cuda-repo-ubuntu1404-7-5-local_7.5-18_amdé64.deb° 
2. ‘sudo apt-get update” 
3. ‘sudo apt-get install cuda’ 


For further information, see the installation Guide for Linux and the JA Quick Start 





1) 在 “Select Target Platform CAF HRPA) ”下 方 ， 选 择 下 列 选 项 : 
ww ai bbt. com TOOOO00 





-Linux 


-x86 64 


‘Ubuntu 


‘14.04/15.04 


‘deb (AHH) 





2) 单 击 "Download《〈 下 载 ) “Fit, KRFA ERIE. AERAR, ALES CP ERE HE m 22 — BOBO AY EY TA] 
3) 导航 至 包含 所 下 载 的 安装 文件 的 目录 ， 并 运行 下 列 命令 : 


$ sudo dpkg -i cuda-repo-ubuntu1404-7-5- 
local 7.5-18 amd64.deb 
$ sudo apt-get update 
$ sudo apt-get install cuda 
上 述 命令 执行 完毕 后 ，CUDA 将 被 安装 到 /usrlocalycuda 目 录 下 。 
接 下 来 ， 需 要 下 载 euDNN， 它 是 一 球 专 为 深度 神经 网 络 设 计 的 基于 CUDA 的 加 速 库 。 单 击 如 下 页 面 的 Download 按 钮 : 


https//developer.nvidia.conycudnn 


用 在 前 面 创建 的 账号 登录 后 ， 将 看 到 一 份 简短 的 调查 问卷 。 完 成 问卷 后 ， 可 通过 单 击 问卷 下 方 的 按钮 进入 下 载 页 面 。 单 击 TAgreeto the Temms.…" 以 接受 下 载 许 可 协 





议 。 由 于 前 面 安装 的 是 CUDA 7.$， 所 以 需要 下 载 cuDNN for CUDA7.5 (本 书写 作 之 时 ， 笔 者 使 用 的 是 cuDNN V5.0) 。 


单 击 "Download cuDNN v5 for CUDA7.5”， 将 下 载 选 项 展开 。 


Home > ComputeWorks » Deep Learning » Software > cuDNN Download 


cuDNN Download QUICKLINKS 


Accelerated Computing - Training 


NVIDIA cuDNN is a GPU-accelerated library of primitives for deep neural networks. CUDA GPUs 


Æ | Agree To the Terms of the cuDNN Software License Agreement Tools & Ecosystem 
Please check your framework documentation to determine the recommended version of cuDNN. 


if you are using cuDNN with a Pascal (GTX 1080, GTX 1070), version 5 or later is required. OpanACC: Mere Science Laas 


Programming 
Download cuDNN v5.1 RC (June 19, 2016), for CUDA 8.0 RC CUDA FAO 


Download cuDNN v5.1 RC (June 16, 2014), for CUDA 7.5 
GPU Computing Y Follow 


Download cuDNN v5 (May 27, 2014), for CUDA 8.0 RC 


=- 
国 CUDA, GPU Computing Retweeted j 


(Gorn canna May Zoltar CUDA zs ] aS oe 
wo = @datarefined 


Not just “mactineleaming. "GPUs are now 


Download cuDNN vá [Feb 10, 2014), for CUDA 7.0 and tater. cruahang = ~ | constraned somons n 
Deadieonal enterprise Compute tasks 


Archived cuDNN Releases cowjyZh6N30O1LETD 





单 击 “cuDNN v5 Library for Linux”， 下 载 经 过 压缩 的 cuDNN 文 件 。 
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Home > ComputeWorks » Deep Learning > Software > cuDNN Download 


cuDNN Download 


NVIDIA cuDNN is a GPU-accelerated library of primitives for deep neural networks. 
@ | Agree To the Terms of the cuDNN Software License Agreement 


Please check your framework documentation to determine the recommended version of cuDNN. 


if you are using cuDNN with a Pascal (GTX 1080, GTX 1070}, version 5 or later is required. 


Download cuDNN v5.1 RC [June 19, 2016), for CUDA 8.0 RC 


QUICKLINKS 

Accelerated Computing - Training 
CUDA GPUs 

Tools & Ecosystem 


OpenACC: More Science Less 
Programming 


CUDA FAQ 


Download cuDNN v5.1 RC [June 16, 2014), for CUDA 7.5 
GPU Computing Y Follow 
Download cuDNN v5 {May 27, 2016), for CUDA 8.0 RC 


> 
国 CUDA, GPU Computng Retweeied W I 


Download cuDNN v5 {May 12. 20161 for CUDA 7.5 ug a 
“a Jaonmveined 
Not just emachinelearning. #GPUS are now 
cuDNN User Guide Crushing sCPU constrained solutions in 
vadaional enterprise compute tasks 
cuDNN Install Guide ow lyf ZNONBOILErD 


cuDNN v5 Library for Linux [IBM Power8} 也 af 
cuDNN v5 Library tor Windows 7 » 
cuDNN v5 Library for Windows 10 CRISES : A 
cuDNN v5 Library for OSX 
cuDNN v5 Code Samples 
CUDNN v5 Release Notes 
cuDNN v5 Runtime Library for Linux (Deb) 
cuDNN v5 Developer Library for Linux [Deb] 


cuDNN v5 Code Samples and User Guide [Deb] 








导航 至 下 载 好 的 .tgz 文 件 ， 运 行 下 列 命令 ， 将 必要 的 文件 复制 到 /usr/locaycuda 目 录 下 : 


$ tar xvzf cudnn-7.5-linux-x64-v5.0-ga.tgz 

$ sudo cp cuda/include/cudnn.h /usr/local/cuda/include 

$ sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 

$ sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/ 
cuda/1lib64/lLibcudnn* 


以 上 便 是 安装 CUDA 所 需 的 所 有 步骤 。 由 于 所 有 依赖 库 都 已 细心 安装 ， 接 下 来 便 可 安装 TensorFlow 了 。 
2.5.4 从 源码 构建 和 安装 TensorFlow 


首先 需要 克隆 GitHub 上 的 TensorFlow 代 码 库 ， 然 后 进入 其 所 在 目录 : 


$ git clone --recurse-submodules https://github.com/ 
tensorflow/tensorf low 
$ cd tensorflow 


进入 上 述 目录 后 ， 运 行 .confgure 脚 本 ， 将 所 使 用 的 编译 器 、CUDA 版 本 等 信息 通知 给 Bazel。 请 确保 已 记录 显卡 的 “计算 能 力 ” 数 字 〈 上 文中 已 介绍 过 ) : 


$ ./configure 
Please specify the Location of python. [Default is /usr/bin/ 
python]: /usr/bin/python 


# 注意 : 着 使 用 Python 3， 需 要 指定 为 /usr/bin/python3 
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Do you wish to build TensorFLow with Google Cloud Platform 
support? [y/N] N 
Do you wish to build TensorFlow with GPU support? [y/N] y 


Please specify which gcc nvcc should use as the host 
compiler. [Default is /usr/bin/gcc]: /usr/bin/gcc 


Please specify the Cuda SDK version you want to use, e.g. 
7.0. [Leave empty to use system default]: 7.5 


Please specify the Cudnn version you want to use. [Leave 
empty to use system default]: 5.0.5 


Please specify the location where cuDNN 5.0.5 library is 
installed. Refer to README.md for more details. [Default 
is /usr/local/cuda]: /usr/local/cuda 


Please specify a list of comma-separated Cuda compute 
capabilities you want to build with. 

You can find the compute capability of your device at: 
https: //developer.nvidia.com/cuda-gpus. 

Please note that each additional compute capability 
Significantly increases your build time and binary size. 
[Default is: "3.5,5.2"]: <YOUR-COMPUTE-CAPABILITY-NUMBER- 
HERE> 


Setting up Cuda include 
Setting up Cuda Lib64 
Setting up Cuda bin 
Setting up Cuda nvvm 
Setting up CUPTI include 
Setting up CUPTI Lib64 
Configuration finished 





Google Cloud Platfbrm 交 持 目 前 正 处 于 封闭 alpha 测 试 阶段 。 如 果 能 够 访问 该 程序 ， 可 在 回答 Google Cloud Platfbrnm 文 持 问 题 时 选择 y (Yes) 。 
配置 完成 后 ， 便 可 利用 Baze] 创 建 一 个 用 于 创建 Python 一 进 制 文件 的 可 执行 程序 : 


$ bazel build -c opt --config=cuda //tensorflow/tools/ 
pip_package:build_pip package 


执行 上 述 命 令 需 要 相当 长 的 一 段 时 间 ， 具 体 时 长 取决 于 你 的 计算 机 性 能 。 竺 Bazel 完 成 上 述 任 务 后 ， 运 行 输出 的 可 执行 程序 ， 并 传 入 一 个 表示 Python wheel 文 件 存 储 


$ bazel-bin/tensorflow/tools/pip package/build pip package ~/ 
tensorflow/bin 


上 述 命 令 将 在 ~/tensorflow/bin 下 创建 一 个 Python.whl 文 件 。 请 确保 你 的 ‘tensor-flow”*Virtualenv 环 境 处 于 活动 状态 ， 然 后 用 pip 安 装 该 wheel 文 件 ( 请 注意 该 二 进 制 文件 的 具 
体 名 称 会 依 所 安装 的 TensorFlow 版 本 、 所 使 用 的 操作 系统 和 Python 版 本 而 不 同 ) : 


$ tensorfLow 
(tensorflow)$ sudo pip install ~/tensorflow/bin/ 
tensorflow-0.9.0-py2-none-any.whl 


如 果 你 拥有 多 台 硬 件 配置 类 似 的 机 器 ， 则 可 使 用 该 wheel 文 件 在 这 些 机 器 上 实现 TensorFlow 的 快速 安装 。 





至 此 ，TensorFlow 便 安装 完毕 ! 最 后 介绍 如 何 安装 Jupyter Notebook 和 matplotlib。 
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2.6 3% Jupyter Notebook 


首先 ， 运 行 下 列 命令 安装 python 一 个 极为 有 用 的 交互 式 Python 内 核 ， 它 也 是 Jupyter Notebook 的 核心 。 笔 者 强烈 推荐 同时 安装 Python 2 和 Python 3 内 核 ， 以 便 
获得 更 多 的 选择 〈 即 执行 下 列 所 有 命令 ) : 


Python 2.7 

sudo python2 -m pip install ipykernel 

sudo python2 -m ipykernel install 

Python 3 

sudo python3 -m pip install jupyterhub notebook ipykernel 
sudo python3 -m ipykernel install 


AARAA + 


此 后 ， 通 过 两 个 命令 便 可 让 你 马上 体验 Jupyter Notebook。 首 先 安装 依赖 项 build-essential: 
$ sudo apt-get install build-essential 

然后 ， 用 pip 安 装 Jupyter Notebook 〈 知 使 用 的 是 Python3， 则 使 用 pip3) : 
# For Python 2.7 
$ sudo pip install jupyter 


# For Python 3 
$ sudo pip3 install jupyter 





官方 的 安装 指南 可 从 Jupyter 网 站 的 下 列 页 面 获取 : 


http://jupyter.readthedocs.io/er/latest/install. html 
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2.7 ”安装 matplotlib 
在 LinuwUbuntu 上 安装 matplottb 的 方法 非常 简单 ， 只 需 运 行 下 列 命令 : 


# Python 2.7 

$ sudo apt-get build-dep python-matpLlotlib python-tk 
# Python 3 

$ sudo apt-get build-dep python3-matpLlotlib python3-tk 


就 是 这 样 简单 ! 
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2.8 ”测试 TensorFlow、Jupyter Notebook 及 matplotlib 


下 面 通过 一 些 虚设 代码 来 复查 所 有 软件 是 否 都 能 正常 工作 。 创 建 一 个 名 为 ' 蔚 notebooks' 的 目录 以 便 进 行 测试 。 进 入 该 目录 ， 并 运行 Jupyter Notebook。 同 样 ， 请 
确保 "tensorfow 环境 处 于 活动 状态 。 


(tensorflow)$ mkdir tf-notebooks 
(tensorflow)$ cd tf-notebooks 
(tensorflow)$ jupyter notebook 





最 后 一 条 命令 将 启动 一 个 Jupyter Notebook 服 务 器 ， 并 在 你 默认 的 网 页 浏览 器 中 打开 该 软件 。 假 设 世 notebooks 目 录 下 没有 任何 文件 ， 那 么 将 看 到 一 个 空 的 工作 
空间 ， 以 及 消息 “Notebook list is enpty”。 要 创建 新 的 笔记 ， 可 单 击 页 面 右 上 角 的 “New 按 钮 ， 然 后 选择 ‘Python 2? 或 "Python 3”， 有 具体 选择 哪个 取决 于 安装 TensorFlow 
时 使 用 的 是 哪个 版 本 的 Python。 


Text File 
Folder 
Terminal 





新 笔记 将 自动 打开 ， 呈 现在 眼前 的 将 是 一 块 用 于 工作 的 白板 。 下 和 面 为 这 个 笔记 设置 一 个 新 名 称 。 在 页 面 的 顶端 单 击 “Untitled”。 


二 Jupyter Untitled) st Checkpoint: a few seconds ago (unsaved changes) 
File View insert Cell Kernel Heip 


E + x @® Hie o NBC co 








之 后 会 弹出 一 个 用 于 对 笔记 本 重 命名 的 窗口 ， 也 可 用 于 修改 笔记 本 文件 的 名 称 〈 扩 展 名 为 ,pynb) 。 你 可 使 用 任何 自己 喜欢 的 名 称 ， 在 本 例 中 笔者 将 其 命名 
为 “My First Notebook”: 


Rename Notebook 


Enter 8 new notebook name 


My First Notebook 
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下 面 来 看 实际 的 界面 。 我 们 注意 到 旁边 有 一 个 “Ip[]: 六 块 的 空 单元 格 ， 你 可 在 该 单元 格 内 直接 键入 代码 ， 而 且 它 可 容纳 多 行 代 码 。 下 面 将 TensorFlow、NunmPy 
以 及 matplotib 的 pyplot 模 块 导 入 该 笔记 本 : 


import tensorflow as tf 
import numpy as np 
import matplotlib.pyplot as plt 


< ju pyter My First Notebook Last Checkpoint: 3 minutes ago (unsaved changes) 
File Edit View insert Cell Kernel Help 


D +x @® B&R e + WH SB CC "| CellToolbar 


In [1]: import = as tf 
import numpy a 


import mma pyplot as plt 











要 运行 该 单元 格 ， 只 需 同 时 按 下 shif 键 和 回 车 键 。 该 单元 格 中 的 代码 执行 完成 后 ， 其 下 方 会 目 动 创建 一 个 新 的 单元 格 。 我 们 注意 到 左边 方 框 中 的 提示 符 变 成 
了 “In[1]: ” 这 意味 着 该 单元 格 是 在 内 核 中 运行 的 第 一 个 代码 块 。 在 该 笔记 本 中 键入 下 列 代码 ， 使 用 单元 格 的 数量 取决 于 你 的 需求 。 你 可 利用 单元 格 中 的 分 隔 符 
将 相关 代码 很 自然 地 组 织 在 一 起 。 


%matplotlib inline 
= tf.random_normal([2,20]) 
sess = tf.Session() 


out = sess.run(a) 
X, y = out 


plt.scatter(x, y) 
plt.show() 


jupy er My First Notebook Last Checkpoint: 9 minutes ago (unsaved changes) 
File Edit insert Cell Kernel Help 
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: import tensorflow as tf 


import numpy as np 
import matplotlib.pyplot as plt 
: Smatplotlib inline 
: @ = tf.random _normal((2,20)) 
: sess = tf.Session() 
: Out = sess. run(a) 


: X, y = out 


: plt.scatter(x, y) 
plt.show() 


-25 -20 -15 -10 -05 08 05 10 15 20 








下 面 这 行 代码 非 第 特殊 ， 值 得 专门 介绍 : 


%matplotlib inline 





这 是 一 条 专门 的 命令 ， 用 于 通 BANE ic Ae matplotlib Ek E P Ai mo TER ai 





bot Com EEEE ERGERE 








下 面 逐 行 分 析 其 余 代码 ， 如 果 你 不 理解 某 些 术语 ， 请 不 必 担 心 ， 后 面 章节 还 会 一 一 进行 讲解 : 
1) 用 TensorFlow 定 义 一 个 由 随机 数 构成 的 2x20 的 矩阵 ， 并 将 其 赋 给 变量 a。 

2) 启动 TensorFlow Session， 并 将 其 赋予 一 个 Sess 对 象 。 

3) 用 sessTrun〈) 方法 执行 对 象 a， 并 将 输出 《NumPy 数 组 ) 赋 给 out。 

4) 将 这 个 2x20 的 窍 阵 划 分 为 两 个 1x10 的 同 量 x 和 y。 

5) 利用 pyplot 模 块 绘制 散 点 图 ，x 对 应 横 轴 ，y 对 应 纵 轴 。 


如 果 所 有 软件 均 己 正确 安装 ， 你 将 得 到 与 上 图 类 似 的 得 出 结果 。 这 虽然 只 是 回 前 迈 出 的 小 小 一 步 ， 但 我 们 毕竟 已 丝 开始 上 手 答 试 TensorFlow， 但 愿 这 能 给 你 带 
来 一 个 民 好 的 体验 。 





要 想 通 过 更 多 、 更 全 面 的 教程 了 解 Jupyter Notebook 的 细节 ， 请 参考 如 下 页 面 中 的 示例 : 


http/jupyter-notebook.readthedocs.10/en/latest/examples/Notebook/examples Index.htm 
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29 ”本章 小 结 


至 此 ， 你 应 当 已 经 拥有 了 一 个 可 工作 的 TensorFljow 版 本 。 下 一 章 将 介绍 知 干 TensorFlow 的 基础 概念 ， 并 用 这 个 库 构 建 上 自己 的 
模型 。 如 果 在 安装 TensorFlow 中 过 到 任何 问题 ， 建 议 首先 参考 如 下 的 官方 指南 : 


https//www.tensorflow.org/versions/master/get started/os setup.html 


ww ai bbt.com ODDODODOD 





第 二 部 分 “TensorFlow 与 机 器 学 习 基 础 


第 3 音 ”TensorFlow 基 础 
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第 3 章 ”TensorFlow 基 础 


3.1 Boe AM fast 


本 市 将 脱离 TensorFlow 的 语 境 ， 介 绍 一 些 数据 流 图 的 基础 知识 ， 内 容 包 括 闻 点 、 边 和 市 点 依赖 关系 的 定义 。 此 外 ， 为 对 一 些 关 键 原理 进行 解释 ， 本 章 还 提供 
了 大和 干 实例 。 如 果 你 对 数据 流 图 已 有 一 定 使 用 经 验 或 已 运用 自如 ， 可 直接 跳 过 本 节 。 








3.1.1 数据 流 图 基础 


借助 TensorFlow API 用 代码 描述 的 数据 流 图 是 每 个 TensorFlow 程 序 的 核心 。 上 不 意外 ， 数 据 流 图 这 种 特殊 类 型 的 有 同 图 正 是 用 于 定义 计算 结构 的 。 在 
TensorFlow 中 ， 数 据 流 图 本 质 上 是 一 组 链接 在 一 起 的 函数 ， 每 个 函数 都 会 将 其 输出 传递 给 0 个 、1 个 或 更 多 位 于 这 个 级 联 链 上 的 其 他 函数 。 按 照 这 种 方式 ， 用 户 可 
利用 一 些 很 小 的 、 为 人 们 所 充分 理解 的 数学 函数 构造 数据 的 复杂 变换 。 下 面 来 看 一 个 比较 简单 的 例子 。 

















上 图 展示 了 可 完成 基本 加 法 运算 的 数据 流 图 。 在 该 岁 中 ， 加 法 运算 是 用 圆圈 表示 的 ， 它 可 接收 两 个 输入 《以 指向 该 函数 的 箭头 表示 ) ， 并 将 1 和 2 之 和 3 输出 
《对 应 从 该 函数 引出 的 箭头 ) 。 该 函数 的 运算 结果 可 传递 给 其 他 函数 ， 也 可 直接 返回 给 客 己 。 





该 数据 流 图 可 用 如 下 简单 公式 表示 : 


上 面 的 例子 解释 了 在 构建 数据 流 图 时 ， 两 个 基础 构件 一 一 节点 和 边 是 如 何 使 用 的 。 下 面 回顾 节点 和 边 的 基本 性 质 : 


“kk (node) : 在 数据 流 图 的 语 境 中 ， 贡 点 通常 以 圆圈 、 椭 圆 和 方 框 表示 ， 代 表 了 对 数据 所 做 的 运算 或 茶 种 操作 。 在 上 例 中 ，"“add 对 应 于 一 个 孤立 节点 。 





‘i Cedge) : 对 应 于 同 Operation 传 入 和 从 Operation 传 出 的 实际 数值 ， 通 党 以 第 涉 表示 。 在 “add” 这 个 例子 中 ， 输 入 1 和 2 均 为 指 同 运算 节点 的 边 ， 而 输出 3 则 为 
从 运算 节点 引出 的 边 。 可 从 概念 上 将 边 视 为 不 同 Operation 之 间 的 连接 ， 因 为 它们 将 信息 从 一 个 节点 传输 到 另 一 个 节点 。 


下 面 来 看 一 个 更 有 趣 的 例子 。 








相 比 之 前 的 例子 ， 上 图 所 示 的 数据 流 图 略 复杂 。 由 于 数据 是 从 左 侧 流 向 右 侧 的 (如 币 头 方 回 所 示 〉， 因 此 可 从 最 左 端 开始 对 这 个 数据 流 图 进行 分 析 : 
D 最 开始 时 ， 可 看 到 两 个 值 S 和 和 3 流入 该 数据 流 图 。 它 们 可 能 来 自 另 一 个 数据 流 图 ， 也 可 能 读 取 自 某 个 文件 ， 或 是 由 客户 直接 输入 。 


2) 这 些 初 始 值 被 分 别传 入 两 个 明确 的 “inpwt 节 点 (图 中 分 别 以 4、b 标 识 ) 。 这 些 “input 节 点 的 作用 仅仅 是 传递 它们 的 输入 值 一 一 节点 a 接 收 到 输入 值 $ 后 ， 将 
同样 的 数值 输出 给 节点 c 和 节点 d， 市 点 b 对 其 输入 值 3 也 完成 同样 的 动作 。 











3) 厄 点 ce 代表 乘法 运算 。 它 分 别 从 节点 a 和 b 接 收 输 入 值 5 和 3， 并 将 运算 结果 15 输 出 到 节点 e。 与 此 同时 ， 节 点 d 对 相同 的 两 个 输入 执行 加 法 运算 ， 并 将 计算 结 
果 8 传 递 给 节点 e。 





4) 最 后 ， 该 数据 流 图 的 终点 一- 节点 e 是 另 一 个 "add yg PR AMR SAB, [手语 背 丰 到 )， 然 后 输出 该 数据 流 图 的 最 终结 果 23。 








下 面 说 明 为 何 上 述 图 形 表示 看 起 来 像 是 一 组 公式 : 
a=input,;; b= input; 
c=a+b;d=atb 
e=ct+d 
当 a 二 5、b 二 3 时 ， 大 要 求解 e， A mKRRA LRA. 
a=5; b=3 
e=a+ b+(at+b) 
e=5 + 3+(513)=23 


经 过 上 述 步骤 ， 便 完成 了 计算 ， 这 里 有 一 些 概念 值得 重点 说 明 : 





上 述 使 用 “nput 节点 的 模式 十 分 有 用 ， 因 为 这 使 得 我 们 能 够 将 单个 输入 值 传 递 给 大 量 后 继 节 点 。 如 果 不 这 样 做 ， 客 户 《 或 传 入 这 些 初 值 的 其 他 数据 源 ) 便 
不 得 不 将 输入 值 显 式 传递 给 数据 流 图 中 的 多 个 节点 。 按 照 这 种 模式 ， 客 户 只 需 保 证 一 次 性 传 入 恰当 的 输入 值 ， 而 如 何 对 这 些 输入 重复 使 用 的 细节 便 被 隐藏 起 
来 。 稍 后 ， 我 们 将 对 数据 流 图 的 抽象 做 更 深入 的 探讨 。 





-突击 小 测验 。 哪 一 个 市 点 将 首先 执行 运算 ? 是 乘法 节点 c 还 是 加 法 节点 d? 答案 是 : 无 从 知晓 。 仅 赁 上 述 数据 流 图 ， 无 法 推 知 c 和 d 中 的 哪 一 个 节点 将 率先 执 
行 。 有 的 读者 可 能 会 按照 从 左 到 右 、 自 上 而 下 的 顺序 阅读 该 数据 流 图 ， 从 而 做 出 节点 c 先 运行 的 假设 。 但 我 们 需要 指出 ， 在 该 数据 流 图 中 ， 将 市 点 d 绘 制 在 c 的 上 
方 也 未 尝 不 可 。 也 可 能 有 些 读者 认为 这 些 市 点 会 并 发 执行 ， 但 考虑 到 各 种 实现 细节 或 硬件 的 限制 ， 实 际 情况 往往 并 非 忠 是 如 此 。 实 际 上 ， 最 好 的 方式 是 将 它们 
的 执行 视 为 相互 独立 。 由 于 节点 c 并 不 依赖 于 来 自 厄 点 d 的 任何 信息 ， 所 以 节点 c 在 完成 自身 的 运算 时 无 需 关 心 闻 点 d 的 状态 如 何 。 反 之 亦 然 ， 市 点 d 也 不 需要 任何 
来 目 节 点 c 的 信息 。 在 本 章 稍 后 ， 还 将 对 节点 依赖 关系 进行 更 深入 的 介绍 。 



































接 下 来 ， 对 上 述 数 据 流 图 稍 做 修改 。 





主要 的 变化 有 两 点 : 


D 来 自 节 点 b 的 “nput 值 3 现在 也 传递 给 了 节点 e。 





2) 节点 e 中 的 函数 "add 被 苦 换 为 "sunm”， 表 明 它 可 完成 两 个 以 上 的 数 的 加 法 运算 。 





你 已 经 注意 到 ， 上 图 在 看 起 来 被 其 他 节点 " 俩 离 ?的 两 个 节点 之 间 添 加 了 一 条 边 。 一 般 而 言 ， 任 何 节 点 都 可 将 其 输出 传递 给 数据 流 图 中 的 任意 后 继 节 点 ， 而 无 
论 这 两 者 之 间 发 生 了 多 少 计算 。 数 据 流 图 甚至 可 以 拥有 下 图 所 示 的 结构 ， 它 仍然 是 完全 合法 的 。 
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通过 这 两 个 数据 流 图 ， 想 必 你 已 能 够 初步 感受 到 对 数据 流 图 的 输入 进行 抽象 所 带 来 的 好 处 。 我 们 能 够 对 数据 流 图 中 内 部 运算 的 精确 细节 进行 操控 ， 但 客户 
只 需 了 解 将 何 种 信息 传递 给 那 两 个 输入 节点 则 可 。 我 们 甚至 可 以 进一步 抽象 ， 将 上 述 数 据 流 图 表示 为 如 下 的 黑箱 。 








这 样 ， 我 们 便 可 将 整个 节点 序列 视 为 拥有 一 组 输入 和 输出 的 离散 构件 。 这 种 抽象 方式 使 得 对 级 联 在 一 起 的 知 干 个 运算 组 进行 可 视 化 更 加 容易 ， 而 无 需 关 心 
每 个 部 件 的 具体 细节 。 


3.1.2 节 点 的 依赖 关系 


在 数据 流 图 中 ， 节 反之 间 的 茶 些 类 型 的 连接 是 不 被 允许 的 ， 最 常见 的 一 种 是 将 造成 循环 依赖 (circular dependency) 的 连接 。 为 理解 “循环 依赖 "这 个 概念 ， 需 
要 先 理解 何 为 "依赖 关系 ”。 再 次 观察 下 面 的 数据 流 图 。 
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循环 依赖 这 个 概念 其 实 非 常 简单 : ON TERT A, SR PRD a ABAR ed ri A, UR AAT BA ROBT ako WREN AAT 
点 了 B 彼 此 不 需要 来 自 对 方 的 任何 信息 ， 则 称 两 者 是 独立 的 。 为 对 此 进行 可 视 化 ， 首 先 观察 当 乘 法 节点 c 出 于 茶 种 原因 无 法 完成 计算 时 会 出 现 何 种 情况 。 

















可 以 预见 ， 由 于 节点 e 需 要 来 自 节 点 c 的 输出 ， 因 此 其 运算 无 法 执行 ， 只 能 无 限 等 待 节点 c 的 数据 的 到 来 。 容 易 看 出 ， 节 点 c 和 节点 d 均 为 节点 e 的 依赖 节点 ， 
为 它们 均 将 信息 直接 传递 到 最 后 的 加 法 函数 。 然 而 ， 稍 加 思索 便 可 看 出 节点 a 和 节点 b 也 是 节点 e 的 依赖 节点 。 如 果 输 入 节点 中 有 一 个 未 能 将 其 输入 传递 给 数据 流 








可 以 看 出 ， 若 将 输入 中 的 茶 一 个 移 除 ， 会 导致 数据 流 图 中 的 大 部 分 运算 中 断 ， 从 而 表明 依赖 关系 具有 传递 性 。 即 ， 铬 A 依赖 于 B， 而 B 依 赖 于 C， 则 A 依赖 于 
C。 在 本 例 中 ， 最 终 节点 e 依 赖 于 节点 c 和 布点 d， 而 节点 c 和 布点 d 均 依赖 于 输入 节点 b。 因 此 ， 最 终 节点 e 也 依赖 于 输入 节点 b。 同 理 可 知 节点 e 也 依赖 于 输入 节点 
a。 此 外 ， 还 可 对 市 反 e 的 不 同 依赖 市 把 进行 区 分 : 


D 称 节 点 e 直 接 依赖 于 节点 c 和 节点 d。 即 为 使 节点 e 的 运算 得 到 执行 ， 必 须 有 直接 来 自 节 点 c 和 节点 d 的 数据 。 


2) 称 节 点 e 辐 接 依赖 于 节 反 a 和 节点 b。 这 表示 节点 a 和 市 点 b 的 输出 并 未 直接 传递 到 节点 e， 而 是 传递 到 杂 个 (或 某 些 ) 中 间 节 点 ， 而 这 些 中 间 节 点 可 能 是 节 
点 e 的 直接 依赖 节点 ， 也 可 能 是 间接 依赖 节点 。 这 意味 着 一 个 节点 可 以 是 被 许多 层 的 中 间 节 点 相隔 的 另 一 个 节点 的 间接 依赖 节点 〈 且 这 些 中 间 节 点 中 的 每 一 个 也 
是 后 者 的 依赖 节点 ) 。 














最 后 来 观察 将 数据 流 图 的 输出 传递 给 其 自身 的 某 个 位 于 前 端的 市 点 时 会 出 现 何 种 情况 。 





不 二 的 是 ， 上 面 的 数据 流 图 看 起 来 无 法 工作 。 我 们 试图 将 节点 e 的 输出 送 回 节 点 b， 并 和 希望 该 数据 流 图 的 计算 能 够 循环 进行 。 这 里 的 问题 在 于 节点 e 现 在 变 为 
节点 b 的 直接 依赖 节点 ;而 与 此 同时 ， 节 点 e 仍 然 依 赖 于 节点 b《〈 前 文 已 说 明 过 ) 。 其 结果 是 节点 bp 和 节点 e 都 无 法 得 到 执行 ， 因 为 它们 都 在 等 待 对 方 计 算 的 完成 。 





也 许 你 非常 聪明 ， 决 定 将 传递 给 节点 b 或 节点 e 的 值 设 置 为 杂 个 初始 状态 值 。 毕 部， 这 个 数据 流 图 是 受 我 们 控制 的 。 不 妨 假 设 节 点 e 的 输出 的 初始 状态 值 为 
1， 使 其 先 工作 起 来 。 


} 








上 图 给 出 了 经 过 几 轮 循环 各 数据 流 图 中 各 节点 的 状态 。 新 引入 的 依赖 关系 制造 了 一 个 无 穷 反 馈 环 ， 且 该 数据 流 图 中 的 大 部 分 边 都 趋向 于 无 穷 大 。 然 而 ， 册 
于 多 种 原因 ， 对 于 像 TensorFlow 这 样 的 软件 ， 这 种 类 型 的 无 限 特区 是非 贮 仆 乔 风 -nnnHT 








1) 由 于 数据 流 图 中 存在 无 限 循 环 ， 因 此 程序 无 法 以 优雅 的 方式 终止 。 





2) 依赖 节点 的 数量 变 为 无 穷 大 ， 因 为 每 轮 欠 代 都 依赖 于 之 前 的 所 有 轮 次 的 友 代 。 不 笠 的 是 ， 在 统计 依赖 关系 时 ， 每 个 节点 都 不 会 只 被 统计 一 次 ， 每 当 其 输 
出 发 生变 化 时 ， 它 便 会 被 再 次 记 为 依赖 节点 。 这 就 使 得 退 踪 依 赖 信息 变 得 不 可 能 ， 而 出 于 多 种 原因 ( 详 见 本 节 的 最 后 一 部 分 ) ， 这 种 需求 是 至 关 重 要 的 。 























3) 你 经 常会 遇 到 这 样 的 情况 : 被 传递 的 值 要 么 在 正方 向 变 得 非常 大 〈 从 而 导致 上 溢 ) ， 要 么 在 负 方向 变 得 非常 大 〈 导 致 下 溢 ) ， 或 者 非常 接近 于 0 (使 得 
每 轮 迭 代 在 加 法 上 失去 意义 ) 。 





基于 上 述 考 虑 ， 在 TensorFlow 中 ， 真 正 的 循环 依赖 关系 是 无 法 表示 的 ， 这 并 非 坏事 。 在 实际 使 用 中 ， 完 全 可 通过 对 数据 流 图 进行 有 限 次 的 复制 ， 然 后 将 它们 
并 排放 置 ， 并 将 代表 相 邻 适 代 轮 次 的 副本 的 输出 与 输入 串 接 。 该 过 程 通常 被 称 为 数据 流 岁 的 "展开 ”(Cunroling) 。 第 6 章 还 将 对 此 进行 更 为 详细 的 介绍 。 为 了 以 图 
形 化 的 方式 展示 数据 流 图 的 展开 效果 ， 下 面 给 出 一 个 将 循环 依赖 展开 5 次 后 的 数据 流 图 。 











对 这 个 数据 流 图 进行 分 机 ， 便 会 发 现 这 个 由 各 节点 和 边 构成 的 序列 等 价 于 将 之 前 的 数据 流 图 般 历 $ 次 。 请 注意 原始 输入 值 〈 以 数据 流 图 顶部 和 底部 的 跳跃 箭 
头 表 示 ) 是 传递 给 数据 流 图 的 每 个 副本 的 ， 因 为 代表 每 轮 欠 代 的 数据 流 图 的 每 个 副本 都 需要 它们 。 按 照 这 种 方式 将 数据 流 图 展开 ， 可 在 保持 确定 性 计算 的 同时 
模拟 有 用 的 循环 依赖 。 








既然 我 们 已 理解 了 节点 的 依赖 关系 ， 接 下 来 便 可 分 析 为 什么 追踪 这 种 依赖 关系 十 分 有 用 。 不 妨 假设 在 之 前 的 例子 中 ， 我 们 只 希望 得 到 节点 c《〈 乘 法 节点 ) 的 
和 输出。 我 们 已 经 定义 了 完整 的 数据 流 图 ， 其 中 包含 独立 于 节点 c 和 节点 e《〈 出 现在 节点 c 的 后 方 ) 的 节点 d， 那 么 是 否 必须 执行 整个 数据 流 图 的 所 有 运算 ， 即 便 并 不 
需要 市 点 d 和 节点 e 的 输出 ? 答案 当然 是 否定 的 。 观 察 该 数据 流 图 ， 不 难 发 现 ， 如 果 只 需要 市 点 ce 的 输出 ， 那 么 执行 所 有 节点 的 运算 便 是 浪费 时 间 。 但 这 里 的 问题 
在 于 : 如 何 确保 计算 机 只 对 必要 的 节点 执行 运算 ， 而 无 需 手 工 指定 ? 答案 是 : 利用 节点 之 间 的 依赖 关系 ! 




















这 背后 的 概念 相当 简单 ， 我 们 唯一 需要 确保 的 是 为 每 个 节点 的 直接 而 非 间接 ) 依赖 节点 维护 一 个 列表 。 可 从 一 个 空 栈 开始 ， 它 最 终 将 保存 所 有 我 们 希望 
运行 的 节点 。 从 你 希望 获得 其 输出 的 节点 开始 。 显 然 它 必须 得 到 执行 ， 因 此 令 其 入 栈 。 接 下 来 查看 该 输出 节点 的 依赖 节点 列表 ， 这 意味 着 为 计算 输出 ， 那 些 节 
点 必须 运行 ， 因 此 将 它们 全 部 入 栈 。 然 后 ， 对 所 有 那些 节点 进行 检查 ， 看 它们 的 直接 依赖 节点 有 哪些 ， 然 后 将 它们 全 部 入 栈 。 继 续 这 种 追溯 模式 ， 直 到 数据 流 
图 中 的 所 有 依赖 节点 均 已 入 栈 。 按 照 这 种 方式 ， 便 可 保证 我 们 获得 运行 该 数据 流 图 所 需 的 全 部 节点 ， 且 只 包含 所 有 必需 的 节点 。 此 外 ， 利 用 上 述 栈 结构 ， 可 对 
其 中 的 节点 进行 排序 ， 从 而 保证 当 遍 历 该 栈 时 ， 其 中 的 所 有 节点 都 会 按照 一 定 的 次 序 得 到 运行 。 唯 一 需要 注意 的 是 需要 追踪 哪些 节点 已 经 完成 了 计算 ， 并 将 它 
们 的 输出 保存 在 内 存 中 ， 以 避免 对 同一 节点 反复 计算 。 按 照 这 种 方式 ， 便 可 确保 计算 量 尽 可 能 地 精简 ， 从 而 在 规模 较 大 的 数据 流 图 上 节省 以 小 时 计 的 宝贵 处 理 
时 间 。 
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3.2 ”在 TensorFlow 中 定义 数据 流 图 





在 本 书 中 ， 你 将 接触 到 多 样 化 的 以 及 相当 复杂 的 机 器 学 习 模型 。 然 而 ， 不 同 的 模型 在 TensorFlow 中 的 定义 过 程 却 遵循 着 相似 的 模式 。 当 掌握 了 各 种 数学 概念 ， 
并 学 会 如 何 实现 它们 时 ， 对 TensorFlow 核 心 工作 模式 的 理解 将 有 助 于 你 脚踏实地 开展 工作 。 幸 运 的 是 ， 这 个 工作 流 非常 容易 记忆 ， 它 只 包含 两 个 步 又 





D 定义 数据 法 图 。 


2) 运行 数据 流 图 (在 数据 上 〉。 





这 里 有 一 个 显而易见 的 道理 ， 如 果 数 据 流 图 不 存在 ， 那 么 肯定 无 法 运行 它 。 尖 脑 中 有 这 种 概念 是 很 有 必要 的 ， 因 为 当 你 编写 代码 时 会 发 现 TensorFlow 功 能 是 如 
此 直 定 。 每 次 只 需 关 注 上 述 工作 流 的 一 部 分 ， 有 助 于 更 周密 地 组 织 自己 的 代码 ， 并 有 助 于 明确 接 下 来 的 工作 方向 。 








本 节 将 专注 于 讲述 在 TensorFlow 中 定义 数据 流 图 的 基础 知识 ， 下 一 节 将 介绍 当 数 据 流 图 创建 完毕 后 如 何 运 行 。 最 后 ， 我 们 会 将 这 两 个 步骤 进行 衔接 ， 并 展示 如 
何 创建 在 多 次 运行 中 状态 不 断 发 生变 化 并 接收 不 同 数据 的 数据 流 图 。 





3.2.1 构建 第 一 个 TensorFElow 数 据 流 几 


通过 上 一 节 的 介绍 ， 我 们 已 对 如 下 数据 流 图 颇 为 熟悉 。 
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用 于 表示 该 数据 流 图 的 TensorFlow 代 码 如 下 所 示 : 
import tensorflow as tf 


= tf.constant(5, name="input a") 
= tf.constant(3, name="input_b") 
.mul(a,b, name="mul_c") 
= tf.add(a,b, name="add_ d") 
= tf.add(c,d, name="add e") 


nan F&F w 
II 
ct 
“h 


下 面 来 逐 行 解析 这 段 代 码 。 首 先 ， 你 会 注意 到 下 列 导 入 语句 : 
import tensorflow as tf 


塞 不 意外 ， 这 条 语句 的 作用 是 导入 TensorFlow 库 ， 并 赋予 它 一 个 别名 一 一 纽 按照 惯例 ， 人 们 通常 都 是 以 这 种 形式 导入 TensorFlow 的 ， 因 为 在 使 用 该 库 中 的 各 种 
函数 时 ， 键 入 “中 要 比 键入 完整 的 “tensorflow" 容 易 得 多 。 


接 下 来 研究 前 两 行 变 量 赋值 语句 : 


tf.constant(5, name="input a") 
tf.constant(3, name="input b") 


Cr ow 
oo 


这 里 定义 了 "input” 节 点 a 和 b。 语 句 第 一 次 引用 了 TensorFlow Operation: tfconstant () 。 在 TensorFlow 中 ， 数 据 流 图 中 的 每 个 节点 都 被 称 为 一 个 Operation ( 简 记 为 
Op) 。 各 Op 可 接收 0 个 或 多 个 Tensor 对 象 作为 输入 ， 并 输出 0 个 或 多 个 Tensor 对 象 。 要 创建 一 个 Op， 可 调用 与 其 关联 的 Python 构造 方法 ， 在 本 例 中 ， 女 constant () 创 
建 了 一 个 “常量 *Op， 它 接收 单个 张 量 值 ， 然 后 将 同样 的 值 输出 给 与 其 直接 连接 的 节点 。 为 方便 起 见 ， 该 函数 自动 将 标量 值 6o 和 3 转换 为 Tensor 对 象 。 此 外 ， 我 们 还 为 
这 个 构造 方法 传 入 了 一 个 可 选 的 字符 串 参 数 name， 用 于 对 所 创建 的 节点 进行 标识 。 





如 果 和 暂时 还 无 法 充分 理解 什么 是 Operation， 什 么 是 Tensor 对 象 ， 请 不 必 担 心 ， 本 章 稍 后 还 会 对 这 些 概念 进行 详细 介绍 。 
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tf.mul(a,b, name="mul_c") 
tf.add(a,b, name="add d") 


= fi 
| H 


这 两 个 语句 定义 了 数据 流 图 中 的 男 外 两 个 节点 ， 而 且 它 们 都 使 用 了 之 前 定义 的 市 点 a 和 b。 市 点 c 使 用 了 ttmul Op， 它 接收 两 个 输入 ， 然 后 将 它们 的 乘积 输出 。 类 
似 地 ， 节 点 d 使 用 了 ttadd， 该 Op 可 将 它 的 两 个 输入 之 和 输出 。 对 于 这 些 Op， 我 们 均 传 入 了 name 参 数 〈 今 后 还 将 有 大 量 此 类 用 法 ) 。 请 注意 ， 无 需 专门 对 数据 流 图 
中 的 边 进行 定义 ， 因 为 在 Tensorflow 中 创建 节点 时 已 包含 了 相应 的 Op 完成 计算 所 需 的 全 部 输入 ，TensorFlow 会 自动 绘制 必要 的 连接 。 





e = tf.add(c,d, name="add e") 








最 后 的 这 行 代码 定义 了 数据 流 图 的 终点 e， 它 使 用 萎 add 的 方式 与 节点 4 是 一 致 的 。 区 别 只 在 于 它 的 输入 来 自 节 点 c 和 节点 d， 这 与 数据 流 图 中 的 描述 完全 一 致 。 








通过 上 述 代码 ， 便 完成 了 第 一 个 小 规模 数据 流 图 的 完整 定义 。 如 果 在 一 个 Python 脚 本 或 shell 中 执行 上 述 代 码 ， 它 虽然 可 以 运行 ,但 实际 上 却 不 会 有 任何 实质 性 
的 结果 输出 。 请 注意 ， 这 只 是 整个 流程 的 数据 流 图 定义 部 分 ， 要 想 体验 一 个 数据 流 图 的 运行 效果 ， 还 需 在 上 述 代码 之 后 添加 两 行 语句 ， 以 将 数据 流 图 终点 的 结果 输 
出 。 


sess = tf.Session() 
sess.run(e) 





如 果 在 某 个 交互 环境 中 运行 这 些 代 码 ， 如 Python shell=Jupyter/iPython Notebook， 则 可 看 到 正确 的 输出 : 


>>> sess = tf.Session() 
>>> sess.run(e) 
23 


下 面 通过 一 个 练习 来 实践 上 述 内 容 。 
练习 : 在 TensorFlow 中 构建 一 个 基本 的 数据 流 图 


TensorBoard。 完 成 该 练 





动手 实践 的 时 间 已 到 ! 在 这 个 练习 中 ， 你 将 编码 实现 第 一 个 TensorFlow 数 据 流 图 ， 运 行 它 的 各 个 部 件 ， 并 初步 了 解 极 为 有 用 的 工具 
习 后 ， 你 将 能 够 非常 目 如 地 构建 基本 的 TensorFlow 数 据 流 图 。 


下 面 让 我 们 在 TensorFlow 中 实际 定义 一 个 数据 流 图 吧 ! 请 确保 已 成 功 安 装 TensorFlow， 并 启动 Python 依赖 环境 〈 如 果 使 用 的 话 ) ， 如 Virtualenv、Conda、Docker 
等 。 此 外 ， 如 果 是 从 源码 安装 TensorFlow， 请 确保 控制 台 的 当前 工作 路 径 不 同 于 TensorFlow 的 源 文件 夹 ， 否 则 在 导入 该 库 时 ，Python 将 会 无 所 适 从 。 现 在 ， 启 动 一 个 
交互 式 Python 会 话 〈( 既 可 通过 shell 命 令 jupyter notebook 使 用 Jupyter Notebook， 也 可 通过 命令 python 启 动 简易 的 Python shell) 。 如 果 有 其 他 偏好 的 方式 交互 式 地 编写 
Python 代码 ， 也 可 放心 地 使 用 ! 








可 将 代码 写 入 一 个 Python 文件 ， 然 后 以 非 交 互 方式 运行 ， 但 运行 数据 流 图 所 产生 的 输出 在 默认 情况 下 是 不 会 显示 出 来 的 。 为 了 使 所 定义 的 数据 流 图 的 运行 结 
可 见 ， 同 时 获得 Python 解 释 器 对 输入 的 句法 的 即时 反馈 (如 果 使 用 的 是 Jupyter Notebook) ， 并 能 够 在 线 修 正 错 误 和 修改 代码 ， 强 烈 建议 在 交互 式 环境 中 完成 这 些 例 
子 。 此 外 ， 你 还 会 发 现 使 用 交互 式 TensorFlow 乐 趣 无 穷 ! 





首先 需要 加 载 TensorFlow 库 。 可 按照 下 列 方式 编写 导入 语句 : 


import tensorflow as tf 


导入 过 程 需要 持续 几 秒 钟 ， 竺 导入 完成 后 ， 交 互 式 环境 便 会 等 待 下 一 行 代码 的 到 来 。 如 果 安 装 了 有 GPU 文 持 的 TensorFlow， 你 可 能 还 会 看 到 一 些 输出 信息 ， 提 
示 CUDA 库 已 被 导入 。 如 果 得 到 一 条 类 似 下 面 的 错误 提示 : 


ImportError: cannot import name pywrap_tensorflow 





请 确保 交互 环境 不 是 从 TensorFlow 的 源 文件 夹 司 动 的 。 而 如 果 得 到 一 条 类 似 下 面 的 错误 提示 : 


ImportError: No module named tensorfLow 





请 复查 TensorFlow 是 否 被 正确 安装 。 如 果 使 用 的 是 Virtualenv 或 Conda， 请 确保 启动 交互 式 Python 软 件 时 ，TensorFlow 环 境 处 于 活动 状态 。 请 注意 ， 如 果 运 行 了 多 个 
终端 ， 则 将 只 有 一 个 终端 拥有 活动 状态 的 TensorFljow 环 境 。 


假设 上 述 导 入 语句 在 执行 时 没有 过 到 任何 问题 ， 则 可 进入 下 一 部 分 代码 : 
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D) 
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tf.constant(5, name="input a") 
tf.constant(3, name="input_b") 


oa 
Il 


这 与 在 上 面 看 到 的 代码 完全 相同 ， 可 随意 更 改 这 些 常 量 的 数值 或 name 参 数 。 在 本 书 中 ， 为 了 保持 前 后 一 致 性 ， 笔 者 会 始终 使 用 相同 的 数值 。 


tf.mul(a,b, name="mul_c") 
tf.add(a,b, name="add d") 


a. ff 
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RE, EREA SPAS SEP UT SES Op. WRA EA tEmMtfadd RERE, PR e Atisub. tidivektimod, IXE R Bea} HÍT HEIRE 
除法 和 取 模 运算 。 


[tfdiv] (https:/www.tensorflow.org/versions/master/api_docs/python/math_ ops.htmi#div) 或 者 执行 整数 除法 ， 或 执行 浮 点 数 除法 ， 有 具体 取决 于 所 提供 的 输入 类 型 。 如 果 
硕 望 确保 使 用 浮 点 数 除法 ， 请 使 用 长 tuediv。 


接 下 来 定义 数据 流 图 的 终点 : 


e = tf.add(c,d, name="add e") 





你 可 能 已 经 注意 到 ， 在 调用 上 述 Op 时 ， 没 有 显示 任何 输出 ， 这 是 因为 这 些 语句 只 是 在 后 台 将 一 些 Op 添 加 到 数据 流 图 中 ， 并 无 任何 计算 发 生 。 为 运行 该 数据 流 
图 ， 需 要 创建 一 个 TensorFlow Session 对 象 : 


sess = tf.Session() 








Session 对 象 在 运行 时 负责 对 数据 流 图 进行 监督 ， 并 且 是 运行 数据 流 图 的 主要 接口 。 在 本 练习 之 后 ， 我 们 还 将 对 Session 对 象 进行 更 为 深入 的 探讨 ， 但 现在 只 需 了 
解 在 TensorFlow 中 ， 如 果 和 希望 运行 自己 的 代码 ， 必 须 定 义 一 个 Session 对 象 。 上 述 代 码 将 Session 对 象 赋 给 了 变量 sess， 以 便 后 期 能 够 对 其 进行 访问 。 


关于 InteractiveSession 








纶 Session 有 一 个 与 之 十 分 相近 的 变 体 一 一 在 InteractiveSession。 它 是 专 为 交互 式 Python 软 件 设 计 的 (例如 那些 可 能 正在 使 用 的 环境 ) ， 而 且 它 采取 了 一 些 方法 使 运 
行 代码 的 过 程 更 加 人 简便。 不 利 的 方面 是 在 Python 文 件 中 编写 TensorFlow 代 码 时 用 处 不 大 ， 而 且 它 会 将 一 些 作 为 TensorFlow 新 手 应 当 了 解 的 信息 进行 抽象 。 此 外 ， 它 不 
能 省 去 很 多 的 按键 次 数 。 本 书 将 始终 使 用 标准 的 给 Session 类 。 


sess.run(e) 





至 此 ， 我 们 终于 可 以 看 到 运行 结果 了 。 执 行 完 上 述 语句 后 ， 你 应 当 能 够 看 到 所 定义 的 数据 流 图 的 输出 。 对 于 本 练习 中 的 数据 流 图 ， 输 出 为 23。 如 果 使 用 了 不 同 
的 函数 和 输入 ， 则 最 终结 果 也 可 能 不 同 。 然 而 ， 这 并 非 我 们 能 做 的 全 部 ， 还 可 冬 试 着 将 数据 流 图 中 的 其 他 节点 传 入 sessrun《〈) 函数 ， 如 : 


sess.run(c) 





通过 这 个 调用 ， 应 该 能 够 看 到 中 间 节 点 c 的 输出 (在 本 例 中 为 15〉。TensorFlow 不 会 对 你 所 创建 的 数据 流 图 做 任何 假设 ， 程 序 并 不 会 关心 节点 c 是 否 是 你 希望 得 
到 的 输出 ! 实际 上 ， 可 对 数据 流 图 中 的 任意 Op 使 用 ron() 函数 。 当 将 某 个 Op 传 入 sessrun〈) 时 ， 本 质 上 是 在 通知 TensorFlow 这 里 有 一 个 节点 ， 我 希望 得 到 它 的 输 
出 ， 请 执行 所 有 必要 的 运算 来 求 取 这 个 节 扣 的 输出 *。 可 反复 尝试 该 函数 的 使 用 ， 将 数据 流 图 中 其 他 节点 的 结果 输出 。 














还 可 将 运行 数据 流 图 所 得 到 的 结果 保存 下 来 。 下 面 将 节点 e 的 输出 保存 到 一 个 名 为 output 的 Python 变 量 中 : 


output = sess.run(e) 





棒 极 了 ! 既然 我 们 已 经 拥有 了 一 个 活动 状态 的 Session 对 象 ， 且 数据 流 图 已 定义 完毕 ， 下 面 来 对 它 进行 可 视 化 ， 以 确认 其 结构 与 之 前 所 绘制 的 数据 流 图 完全 一 
致 。 为 此 可 使 用 TensorBoard， 它 是 随 TensorFlow 一 起 安装 的 。 为 利用 TensorBoard， 需 要 在 代码 中 添加 下 列 语句 : 


writer = tf.train.SummaryWriter('./my_graph', sess.graph) 


下 面 分 析 这 行 代码 的 作用 。 我 们 创建 了 一 个 TensorFlow 的 SummaryWriter 对 象 ， 并 将 它 赋 给 变量 writer。 虽 然 在 本 练习 中 不 准备 用 SummaryWriter 对 象 完成 其 他 操 
作 ， 但 今后 会 利用 它 保 存 来 自 数 据 流 图 的 数据 和 概括 统计 量 ， 因 此 我 们 习惯 于 将 它 赋 给 一 个 变量 。 为 对 SummaryWriter 对 象 进行 初始 化 ， 我 们 传 入 了 两 个 参数 。 第 一 
个 参数 是 一 个 字符 串 输 出 目录 ， 即 数据 流 图 的 描述 在 磁盘 中 的 存放 路 径 。 在 本 例 中 ， 所 创建 的 文件 将 被 存放 在 一 个 名 为 my_graph 的 文件 夹 中 ， 而 该 文件 来 位 于 运行 
Python 代 码 的 那个 路 径 下 。 我 们 传递 给 SummaryWiriter 构 造 方法 的 第 二 个 输入 是 Session 对 象 的 graph 属 性 。 作 为 在 TensorFlow 中 定义 的 数据 流 图 管理 器 ， 人 Session 对 象 拥 
有 一 个 gaph 属 性 ， 该 属性 引用 了 它们 所 要 追 踊 的 数据 流 图 。 通 过 将 该 属性 传 入 SummaryWriter 构 造 方法 ， 所 构造 的 SummarWriter 对 象 便 会 将 对 该 数据 流 图 的 描述 输出 
到 my _ graph 路 径 下 。SummaryWriter 对 象 初始 化 完成 之 后 便 会 立 耻 局 /人 旗 虞 数 所 站 lig PRIT, (EFT Ji 4) TensorBoard. 














回 到 终端 ， 并 键入 下 列 命令 ， 确 保 当 前 工作 路 径 与 运行 Python 代码 的 路 径 一 致 〈 应 该 能 看 到 列 出 的 "my graph i4) : 


$ tensorboard --logdir="my_graph" 





从 控制 台中 ， 应 该 能 够 看 到 一 些 日 志 信 息 打 印 出 来 ， 然 后 是 消息 “Starting Tensor-Board on port6066”。 刚 才 所 做 的 是 启动 一 个 使 用 来 自 “my graph? 目 录 下 的 数据 的 
TensorBoard 服 务 器 。 默 认 情 况 下 ，TensorBoard 服 务 器 启动 后 会 自动 监听 端口 6006 一 一 要 访问 TensorBoard， 可 打开 浏览 器 并 在 地 址 栏 输入 httpVlocalhost: 6006 ， 然 后 
将 看 到 一 个 栖 白 主题 的 欢迎 页 面 : 





No scalar data was found. 
C Data download irks 
Probable causes 
. © You hevar wien Ary Geder Gite to you Ovena Aiet 
— TensceBoard cant find your event files. 
| ster | apsida EPA If youre new to using TensorBoard, and want to find out how to add data 


and set up your event files, check owt the README and perhaps the 
TensorBoard tutorial 


If you think TensorBoard is configured property, please see the section of 
the README devoted to missing Gata problems and consider filing an issue 
on Githtub 











请 不 要 为 警告 消息 “No scalar data was fpund" 紧 张 ， 这 仅仅 表示 我 们 尚未 为 Tensor-Board 保 存 任何 概括 统计 量 ， 从 而 使 其 无 法 正常 显示 。 通 常 ， 这 个 页 面 会 显示 利 
用 SummaryWriter 对 象 要 求 TensorFlow 所 保存 的 信息 。 由 于 尚未 保存 任何 其 他 统计 量 ， 所 以 无 内 容 可 供 显 示 。 尺 管 如 此 ， 这 并 不 妨碍 我 们 欣赏 自己 定义 的 美丽 的 数据 
流 图 。 单 击 页 面 顶部 的 “Graph 链接， 将 看 到 类 似 下 图 的 页 面 : 
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这 才 说 得 过 去 ! 如 果 数 据 流 图 过 小 ， 则 可 通过 在 TensorBoard 上 向 上 深 动 鼠标 深 轮 将 其 放大 。 可 以 看 到 ， 图 中 的 每 个 节点 都 用 传 给 每 个 Op 的 name 参 数 进行 了 标 
识 。 如 果 单 击 这 些 布 点， 还 会 得 到 一 些 关 于 它们 的 信息 ， 如 它们 依赖 于 哪些 节点 。 还 会 发 现 ， 输 入 市 点 a 和 lb 貌似 重复 出 现 了 ， 但 如 果 单 击 或 将 鼠标 基 停 在 标签 
为 “input_ a 的 任何 一 个 节点 ， 会 发 现 两 个 节点 同时 高 亮 。 这 里 的 数据 流 图 在 外 观 上 与 之 前 所 绘制 的 并 不 完全 相同 ， 但 它们 本 质 上 是 一 样 的 ， 因 为 “inpue 闻 点 不 过 是 显 
示 了 两 次 而 已 ， 效 果 还 是 相当 惊艳 的 ! 











就 是 这 样 ! 现在 已 经 正式 地 编写 并 运行 了 第 一 个 TensorFlow 数 据 流 图 ， 而 且 还 在 TensorBoard 中 对 其 进行 了 检查 ! 只 用 这 样 少 的 几 行 代码 就 完成 如 此 多 的 任务 真 
是 棒 极 了 ! 


要 想 更 多 地 实践 ， 可 答 试 在 数据 流 图 中 添加 更 多 节点 ， 并 试验 一 些 之 前 介绍 过 的 不 同 数 学 运算 ， 然 后 添加 少量 tconstant 节 点 ， 运 行 所 洪 加 的 不 同 节点 ， 确 保 真 
正 理解 了 数据 在 数据 流 图 中 的 流动 方式 。 


完成 数据 流 图 的 构造 之 后 ， 需 要 将 Session 对 象 科 SummarWriter 对 象 关闭 ， 以 释放 资源 并 执行 一 些 清 理工 作 : 
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writer.close() 
sess.close() 





从 技术 角度 讲 ， 当 程序 运行 结束 后 《〈 若 使 用 的 是 交互 式 环境 ， 当 关闭 或 重 司 Python 内 核 时 ) ，Session 对 象 会 自动 和 关闭。 尽管 如 此 ， 笔 者 仍然 建议 显 式 关闭 
Session 对 象 ， 以 避免 任何 诡异 的 边界 用 例 的 出 现 。 


下 面 给 出 本 练习 对 应 的 完整 Python 代码 : 


import tensorflow as tf 


tf.constant(5, name="input_a" ) 
= tf.constant(3, name="input_b") 
tf.mul(a,b, name="mul_c") 
= tf.add(a,b, name="add_d") 
= tf.add(c,d, name="add e") 
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sess = tf.Session() 
output = sess.run(e) 
writer = tf.train.SummaryWriter('./my_graph', sess.graph) 


writer .close() 
sess.close() 


3.2.2 . 张 量 思维 





在 学 习 数 据 流 图 的 基础 知识 时 ， 使 用 简单 的 标量 值 是 很 好 的 选择 。 既 然 我 们 已 经 掌握 了 "数据 流 "”， 下 面 不 妨 熟 悉 一 下 张 量 的 概念 。 








如 前 所 述 ， 所 谓 张 量 ， 即 n 维 矩阵 的 抽象 。 因 此 ，1D 张 量 等 价 于 向 量 ，2D 张 量 等 价 于 窍 阵 ， 对 于 更 高 维 数 的 张 量 ， 可 称 “N 维 张 量 " 或 “N 阶 张 量 "。 有 了 这 一 概 
念 ， 便 可 对 之 前 的 示例 数据 流 图 进行 修改 ， 使 其 可 使 用 张 量 。 
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现在 不 再 使 用 两 个 独立 的 输入 节点 ， 而 是 换 成 了 一 个 可 接收 向 量 〈 或 1 阶 张 量 ) 的 节点 。 与 之 前 的 版 本 相 比 ， 这 个 新 的 流 图 有 如 下 优点 : 


D 客户 只 需 将 输入 送 给 单个 节点 ， 简 化 了 流 图 的 使 用 。 





2) 那些 直接 依赖 于 输入 的 节点 现在 只 需 退 踪 一 个 依赖 节点 ， 而 非 两 个 。 


3) 这 个 版 本 的 流 图 可 接收 任意 长 度 的 向 量 ， 从 而 使 其 灵活 性 大 大 增强 。 我 们 还 可 对 这 个 流 图 施加 一 条 严格 的 约束 ， 如 要 求 输入 的 长 度 必须 为 2 或 任何 我 们 希 
望 的 长 度 ) 。 


按 下 列 方 式 修改 之 前 的 代码 ， 便 可 在 TensorFlow 中 实现 这 种 变动 : 


import tensorflow as tf 


tf.constant([5,3], name="input_a") 
= tf.reduce prod(a, name="prod_b") 
tf.reduce_sum(a, name="sum_c" 

= tf.add(c,d, name="add_d") 
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除了 调整 变量 名 称 外 ， 主 要 改动 还 有 以 下 两 处 : 
1) 将 原先 分 离 的 节点 a 和 b 蔡 换 为 一 个 统一 的 输入 节点 (不 止 包 含 之 前 的 节点 a，) 。 传 入 一 组 数值 后 ， 它 们 会 由 萎 constant 函 数 转 化 为 一 个 1 阶 张 量 。 


2) 之 前 只 能 接收 标量 值 的 乘法 和 加 法 Op， 现 在 用 tfreduce prod © 和 tfreduce sum O 函数 重新 定义 。 当 给 定 某 个 张 量 作为 输入 时 ， 这 些 函 数 会 接收 其 所 有 分 
， 然 后 分 别 将 它们 相 乘 或 相 加 。 


地 


在 TensorFlow 中 ， 所 有 在 节点 之 间 传 递 的 数据 都 为 Tensor 对 象 。 我 们 已 经 看 到 ， =<. °° 如 整数 或 字符 串 ， 并 将 它们 自动 转化 
为 张 量 。 手 工 创建 Tensor 对 象 有 多 种 方式 〈 即 无 需 从 外 部 数据 源 读 取 〉 ， 下 面 对 其 中 一 部 分 进行 介绍 。 


注意 : 本 书 在 讨论 代码 时 ， 会 不 加 区 分 地 使 用 ' 张 量 ? 或 “Tensor 对 象 ” 


1.Python 原 生 类 型 





TensorFlow 可 接收 Python 数值 、 布 尔 值 、 字 符 串 或 由 它们 构成 的 列表 。 单 个 数值 将 被 转化 为 0 阶 张 量 《〈 或 标量 ) ， 数 值 列表 将 被 转化 为 1 阶 张 量 (向 量 ) ， 由 列 
表 构 成 的 列表 将 被 转化 为 2 阶 张 量 (矩阵 ) ， 以 此 类 推 。 下 面 给 出 一 些 例子 。 


tS =o # 视 为 0 阶 张 量 或 “标量 ” 
t_1 = [b"apple", b"peach", b"grape"] # 视 为 1 阶 张 量 或 “向 量 
t 2 = [[True, False, False], # 视 为 2 阶 张 量 或 “矩阵 ” 
[False, False, True], 
[False, True, False] ] 
t_3 = [[ [0, 0], [0, 1], [0, 2] ], # 视 为 3 阶 张 量 
L [1, 9], [1, 1], [1, 2] ly 
| (2, 0], [2, 1], [2, 2] J] 
TensorFlow 数 据 类 型 





到 目前 为 止 ， 我 们 尚未 见 到 布尔 值 或 字符 串 ， 但 可 将 张 量 视 为 一 种 以 结构 化 格式 保存 任意 数据 的 方式 。 显 然 ， 数 学 函数 无 法 对 字符 串 进 行 处 理 ， 而 字符 串 解 析 
函数 也 无 法 对 数值 型 数据 进行 处 理 ， 但 有 必要 了 解 TensorFlow 所 能 处 理 的 数据 类 型 并 不 局 限于 数值 型 数据 ! 下 面 给 出 TensorFlow 中 可 用 数据 类 型 的 完整 清单 。 


数据 类 型 (dtype) 描述 
tf.float32 32 位 浮 点 型 
tffloat64 64 位 浮 点 型 
tf.int8 8 位 有 符号 整数 
tf.int16 6 位 有 符号 整数 
tf.int32 32 位 有 符号 整数 
tf.int64 4 位 有 符号 整数 
tf.uint8 8 位 无 符号 整数 
tf string 字符 串 (作为 非 Unicode 编码 的 字 节 数组 ) 
tfbool 布尔 型 
tf.complex64 复数 ， 实 部 和 虚 部 分 别 为 32 位 浮 点 型 
tf.qint8 8 位 有 符号 整数 (用 于 量化 Op) 
tf.qint32 32 位 有 符号 整数 (用 于 量化 Op) 
tf.quint8 8 位 无 行 号 整数 (用 于 量化 Op) 


利用 Python 类 型 指定 Tensor 对 象 既 容 易 又 快捷 ， 且 对 为 一 些 想法 提供 原型 非常 有 用 。 然 和 而， 很 不 季 ， 这 种 方式 也 会 带 来 无 法 忽视 的 不 利 方面 。TIensorFlow 有 数量 
极为 庞大 的 数据 类 型 可 供 使 用 ， 但 基本 的 Python 类 型 缺乏 对 你 希望 使 用 的 数据 类 型 的 种 类 进行 明确 声明 的 能 力 。 因 此 ，TensorFlow 不 得 不 去 推断 你 期 望 的 是 何 种 数 
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据 类 型 。 对 于 某 些 类 型 ， 如 字符 串 ， 推 断 过 程 是 非常 简单 的 ， 但 对 于 其 他 类 型 ， 则 可 能 完全 无 法 做 出 推断 。 例 如 ， 在 Python 中 ， 所 有 整数 都 具有 相同 的 类 型 ， 但 
TensorFlow 却 有 8 位 、16 位 、32 位 和 64 位 整数 类 型 之 分 。 当 将 数据 传 入 TensorFlow 时 ， 虽 有 一 些 方法 可 将 数据 转化 为 恰当 的 类 型 ， 但 某 些 数据 类 型 仍然 可 能 难以 正确 
地 声明 ， 例 如 复数 类 型 。 因 此 ， 更 常见 的 做 法 是 借助 NumPy 数 组 手工 定义 Tensor 对 象 。 





2.NumPy 数 组 


TensorFlow 与 专 为 操作 NN 维 数 组 而 设计 的 科学 计算 软件 包 NumPy 是 紧密 集成 在 一 起 的 。 如 果 之 前 没有 使 用 过 NumPy， 笔 者 强烈 推荐 你 从 大 量 可 用 的 入 门 材料 和 了 文 
档 中 选择 一 些 进行 学 习 ， 因 为 它 已 成 为 数据 科学 的 通用 语言 。TensorFlow 的 数据 类 型 是 基于 NumPy 的 数据 类 型 的 。 实 际 上 ， 语 句 np.int32 一 tfint32 的 结果 为 Te。 任何 
NumPy 数 组 都 可 传递 给 TensorFlow Op， 而 且 其 美妙 之 处 在 于 可 以 用 最 小 的 代价 轻易 地 指定 所 需 的 数据 类 型 。 


字符 串 数据 类 型 


对 于 字符 串 数据 类 型 ， 有 一 个 ' 特 别 之 处 ?需要 注意 。 对 于 数值 类 型 和 布尔 类 型 ，TenosrFlow 和 NumPy dtype 属 性 是 完全 一 致 的 。 然 而 ， 在 NumPy 中 并 无 与 tfstring 
精确 对 应 的 类 型 ， 这 是 由 NumPy 处 理 字符 串 的 方式 决定 的 。 也 就 是 说 ，TensorFlow 可 以 从 NumPy 中 完美 地 导入 字符 串 数 组 ， 只 是 不 要 在 NumPy 中 显 式 指 定 dtype 属 
性 。 





有 一 个 好 处 是 ， 在 运行 数据 流 图 之 前 或 之 后 ， 都 可 以 利用 NumPy 库 的 功能 ， 因 为 从 Session.run 方 法 所 返回 的 张 量 均 为 NumPy 数 组 。 下 面 模仿 之 前 的 例子 ， 给 出 一 
段 用 于 演示 创建 NumPy 数 组 的 示例 代码 : 


import numpy as np # 不 要 扩 记 导入 NumpPy'I 


# 元 素 类 型 为 32 位 整数 的 0 阶 张 量 
t 0 = np.array(50, dtype=np.int32) 


元 素 为 字 市 字符 串 类 型 的 1 阶 张 量 
注意 : 在 NumPy 中 使 用 字符 串 时 ， 不 要 显 式 指定 dtype 属 性 
1 = np.array([b"apple", b"peach", b"grape"]) 


# 元 素 为 布尔 型 的 1 阶 张 量 
t 2 = np.array([[True, False, False], 


[False, False, True], 
[False, True, False]], 
dtype=np.booL) 


# 元 素 为 64 位 整数 的 3 阶 张 量 i 7 

t 3 = np.array([[ [0, 0], [0, 1], [0, 2] ], 
L [1, $j, [1, 1], [1, 2] j; 
[ [2, 0], [2, 1], [2, 2] 1], 
dtype=np.int64) 


虽然 TensorFlow 是 为 理解 NumPy 原 生 数 据 类 型 而 设计 的 ， 但 反之 不 然 。 请 不 要 尝试 用 tfint32 去 初始 化 一 个 NumPy 数 组 山 ! 


手工 指定 Tensor 对 象 时 ， 使 用 NumPy 是 推荐 的 方式 。 
3.2.3 ” 张 量 的 形状 


在 整个 TensorFlow 库 中 ， 会 经 常 看 到 一 些 引 用 了 茶 个 张 量 对 象 的 “shape" 属 性 的 函数 和 Op。 这 里 的 “形状 ”是 TensorFlow 的 专 有 术语 ， 它 同时 刻画 了 张 量 的 维 ( 阶 》 
数 以 及 每 一 维 的 长 度 。 张 量 的 形状 可 以 是 包含 有 序 整数 集 的 列表 list) 或 元 组 (tuple〉: 列表 中 元 素 的 数量 与 维 数 一 致 ， 且 每 个 元 素描 述 了 相应 维度 上 的 长 度 。 例 
如 ， 列 表 [2，3] 描 述 了 一 个 2 阶 张 量 的 形状 ， 其 第 1 个 维 上 的 长 度 为 2， 第 2 个 维 上 的 长 度 为 3。 注 意 ， 无 论 元 组 〈 用 一 对 小 括号 包 吉 ) ， 还 是 列表 (用 一 对 方 括号 包 
#) ， 都 可 用 于 定义 张 量 的 形状 。 下 面 通 过 更 多 的 例子 来 说 明 这 一 点 : 
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# 指定 0 阶 张 量 (标量 ) 的 形状 
# 例如 ， 任 意 整数 7、1、3、4 等 
s 0 list = [] 

s 0 tuple = () 


# 刻画 了 一 个 长 度 为 3 的 向 量 的 形状 
# 例如 [1, 2, 3] 
CIs (FI 


# alm 7—03 x 2 MB 
# 例如 [[1, 2], 


# [3, 4], 
# [5, 6]] 
s2 = (J. 2) 











除了 能 够 将 张 量 的 每 一 维 指定 为 固定 长 度 ， 也 可 将 None 作 为 某 一 维 的 值 ， 使 该 张 量具 有 可 变 长 度 。 此 外 ， 将 形状 指定 为 None“〈 而 非 使 用 包含 None 的 列表 或 元 
组 ) 将 通知 TensorFlow 人 允许 一 个 张 量 为 任意 形状 ， 即 张 量 可 拥有 任意 维 数 ， 且 每 一 维 都 可 具有 任意 长 度 。 





# 具有 任意 长 度 的 向 量 的 形状 
5-1 flex = [None] 


# 行 数 任意 、 列 数 为 3 的 和 矩阵 的 形状 
s_2_flex = (None, 3) 


# 第 1 维 上 长 度 为 2， 第 2 维和 第 3 维 上 长 度 任意 的 3 阶 张 量 
s 3 flex = [2, None, None] 


# 形状 可 为 任意 值 的 张 量 


S_any = one 


如 果 需 要 在 数据 流 图 的 中 间 获 取 某 个 张 量 的 形状 ， 可 以 使 用 共 shape Op。 它 的 输入 为 希望 获取 其 形状 的 Tensor 对 象 ， 输 出 为 一 个 int32 类 型 的 向 量 : 


import tensorflow as tf 


.. 创 建 茶 种 类 型 的 神秘 张 量 


# 获取 上 述 张 量 的 形状 
shape = tf.shape(mystery_tensor ，name= mystery_shape ) 


请 记 住 ， 与 其 他 Op 一 样 ， 女 shape 只 能 通过 Session 对 象 得 到 执行 。 


再 次 提醒 : 张 量 只 是 矩阵 的 一 个 超 集 ! 
3.2.4 TensorFlow 的 Operation 


上 文 曾经 介绍 过 ，TensorFlow Operation 也 称 Op， 是 一 些 对 (或 利用 〉 Tensor 对 象 执行 运算 的 节点 。 计 算 完毕 后 ， 它 们 会 返回 0 个 或 多 个 张 量 ， 可 在 以 后 为 数据 流 
minuets 为 创建 Op， 需 要 在 Python 中 调用 其 构造 方法 。 调 用 时 ， 需 要 传 入 计算 所 需 的 所 有 Tensor 参 数 〈 称 为 输入 ) 以 及 为 正确 创建 Op 的 任何 附加 信息 
称 为 属性 ) 。Python 构 造 方法 将 返回 一 个 指向 所 创建 Op 的 输出 《0 个 或 多 个 Tensor 对 象 ) 的 句柄 。 能 够 传递 给 其 他 Op 或 Sessionrun 的 输出 如 下 : 


import tensorfLow as tf 
import numpy as np 


# 初始 化 一 些 计 算 中 需要 使 用 的 张 量 
a = np.array([2, 3], dtype=np.int32) 
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b = np.array([4, 5], dtype=np.int32) 


# 利用 tf.add() 初 始 化 一 个 “add”Op 
# 变量 C 为 指向 该 Op 输出 的 TenSsor 对 象 的 句柄 
c = tf.add(a, b) 


无 输入 、 无 输出 的 运算 





是 的 ， 这 意味 着 从 技术 角度 讲 ， 有 些 Op 既 无 任何 输入 ， 也 无 任何 输出 。Op 的 功能 并 不 只 限于 数据 运算 ， 它 还 可 用 于 如 状态 初始 化 这 样 的 任务 。 本 章 中 ， 我 们 
将 回顾 一 些 这 样 的 非 数 学 Op， 但 请 记 住 ， 并 非 所 有 市 点 都 需要 与 其 他 市 点 连接 。 


除了 输入 和 属性 外 ， 每 个 Op 构造 方法 都 可 接收 一 个 字符 串 参 数 一 name， 作 为 其 输入 。 在 上 面 的 练习 中 我 们 已 经 了 解 到 ， 通 过 提供 name 参 数 ， 可 用 描述 性 字 
符 串 来 指 代 东 个 特定 Op: 


c = tf.add(a, b, name="my_add_op") 


在 这 个 例子 中 ， 我 们 为 加 法 Op 赋予 了 名 称 “my add op”， 这 样 便 可 在 使 用 如 Tensor-Board 等 工具 时 引用 该 Op。 





如 果 和 希望 在 一 个 数据 流 图 中 对 不 同 Op 复 用 相同 的 name 参 数 ， 则 无 需 为 每 个 name 参 数 手工 添加 前 级 或 后 级 


， 只 需 利 用 name_scope 以 编程 的 方式 将 这 些 运 算 组 织 在 
一 起 便 可 。 在 本 章 最 后 的 练习 中 ， 将 简要 介绍 名 称 作用 域 (name scope) 的 基础 知识 。 


运算 符 重 载 
TensorF low 还 对 笛 见 数学 运算 符 进 行 了 重 载 ， 以 使 乘法 、 加 法 、 减 法 及 其 他 篆 见 
运算 更 加 简 潮 。 如 有 末 运 算 待 有 一 个 或 多 个 参数 (操作 对 象 ) 为 Tensor 对 象 ， 则 会 有 一 个 
TensorFlow Op 被 调用 ， 并 被 添加 到 数据 流 图 中 。 例 如 ， 可 按照 下 列 方式 轻松 地 实现 两 
个 张 量 的 加 法 : 


# 假设 3 和 b 均 为 Tensor 对 象 ， 且 形状 匹配 
c=a+b 


下 面 给 出 可 用 于 张 量 的 重 载运 算 符 的 完整 清单 。 
一 元 运算 和 付 
运算 符 


描 g 
返回 x 中 每 个 元 素 的 相反 数 


返回 x 中 每 个 元 素 的 逻辑 非 。 只 适用 于 dtype 为 tfbool 的 Tensor 对 象 


abs(x) 返回 x 中 每 个 元 素 的 绝对 值 
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运算 符 相关 TensorFlow 运算 Ho jË 
x+y tf.add() 将 x Al y 70 K AA IM 
x-y tf.sub() 将 x 和 yy IC HK A 
x*y tf.mul() 将 x 和 yy 7c KA 


给 定 整 数 张 量 时 ， 热 行 逐 元 素 的 整数 除法 ; 给 定 浮 点 型 张 量 


| 时 ， 将 执行 浮 点 数 (“ 真 正 的 ) 除法 


x/y (Python 3.x) 逐 元 素 的 浮 点 数 除法 (包括 分 子 分 母 为 整数 的 情形 
x//y (Python 3.x) 逐 元 素 的 向 下 取 整 除法 ， 不 返回 余数 
x**y tf.pow() 逐一 计算 x 中 的 每 个 元 素 为 底数 ，y 中 相应 元 素 AIK RAT YE 
ey tf.less() 逐 元 素 地 计算 x<y 的 真 值 表 
x<=y tf.less_equal() 逐 元 素 地 计算 x<y 的 真 值 表 
x>y tf.greater() 逐 元 素 地 计算 x>y HAMR 
x>=y tf.greater_equal() 乏 元 素 地 计算 x Sy 的 真 值 表 
EIR HLT JER, ENTER YE Wh i 
x&y tf.logical_and() | ICH MIG x & y 的 真 值 表 ， 每 个 元 素 的 dtype 属性 必须 
为 tfbool 
“es 一 一 3 bit ee ‘nat re: yy aa g - ZW Zit > 
m JETRIH aly MIUR, 每 个 元 素 的 dtype 属性 必须 为 
z 二 一 bit ya 4 ity 个 二 fat An 5 3 , g -A ii à 
aý isgal sort Mo xy 的 真 值 表 ， 每 个 元 素 的 dtype 属性 必须 为 


利用 这 些 重 载运 算 从 可 快速 地 对 代码 进行 整合 ， 但 却 无 法 为 这 些 Op 指定 name 值 。 
如 果 需 要 为 Op 指定 name 值 ， 请 直接 调用 TensorFlow Op. 

从 技术 角度 讲 ，== 运算 符 也 被 重 载 了 ， 但 它 不 会 返回 一 个 布尔 型 的 Tensor A. € 
所 判断 的 是 两 个 Tensor 对 象 名 是 否 引 用 了 同一 个 对 象 ， 铬 是 ， 则 返回 True， 否则， 返回 
False。 这 个 功能 主要 是 在 TensorFlow 内 部 使 用 。 如 果 布 望 检 查 张 量 值 是 否 相 同 ， 请 使 用 
tf.equal() 和 tf.not_equal(). 


3.2.5 ”TensorFlow 的 Graph 对 象 


到 目前 为 止 ， 我们 对 数据 流 图 的 了 解 仪 限于 在 TensorFlow 中 无 处 不 在 的 条 种 抽象 概念 ， 而 且 对 于 开始 编码 时 Op 如 何 自动 依附 于 人 个 数据 流 图 并 不 清楚 。 既 然 已 
经 接触 了 一 些 例子 ， 下 面 来 研究 TensorFlow 的 Graph 对 象 ， 学 习 如 何 创建 更 多 的 数据 流 图 ， 以 及 如 何 让 多 个 流 图 协同 工作 。 





创建 Graph 对 象 的 方法 非常 简单 ， 它 的 构造 方法 不 需要 接收 任何 参数 : 


import tensorflow as tf 


# 创建 一 个 新 的 数据 流 图 
g = tf.Graph() 


Graph 对 象 初始 化 完成 后 ， 便 可 利用 Graph.as default O 方法 访问 其 上 下 文 管理 器 ， 为 其 添加 Op。 结 合 with 语句 ， 可 利用 上 下 文 管 理 器 通知 TensorFlow 我 们 需要 
将 一 些 Op 添 加 到 某 个 特定 Graph 对 象 中 : 
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with g.as_default(): 
# 像 往常 一 样 创建 一 些 Op; 它们 将 被 添加 到 Graph 对 和 象 g 中 
a= tfT.mul(2, 3) 


你 可 能 会 好 奇 ， 为 什么 在 上 面 的 例子 中 不 需要 指定 我 们 希望 将 Op 添加 到 哪个 Graph 对 象 ? 原因 是 这 样 的 : 为 方便 起 见 ， 当 TensorFlow 库 被 加 载 时 ， 它 会 自动 创 
建 一 个 Graph 对 象 ， 并 将 其 作为 默认 的 数据 流 图 。 因 此 ， 在 Graph.as default O 上 下 文 管理 器 之 外 定义 的 任何 Op、Tensor 对 象 都 会 自动 放置 在 默认 的 数据 流 图 中 : 


# 放置 在 默认 数据 流 图 中 
in_default_graph = tf.add(1,2) 


# 放置 在 数据 流 图 g 中 
with g.as_default(): 
in_graph_g = tf.mul(2,3) 


# 由 于 不 在 With 语 句 块 中 ， 下 面 的 Op 将 放置 在 默认 数据 流 图 中 
also_in_default_graph = tf.sub(5,1) 


如 有 果 硕 望 获得 默认 数据 流 图 的 句柄 ， 可 使 用 tfget default graph() pki 2: 


default_graph = tf.get_default_graph() 








在 大 多 数 TensorFlow 程 序 中 ， 只 使 用 默认 数据 流 图 就 足够 了 。 然 而 ， 如 果 需 要 定义 多 个 相互 之 间 不 存在 依赖 关系 的 模型 ， 则 创建 多 个 Graph 对 象 十 分 有 用 。 妆 需 
要 在 单个 文件 中 定义 多 个 数据 流 图 时 ， 最 佳 实践 是 不 使 用 默认 数据 流 图 ， 或 为 其 立即 分 配 句 柄 。 这 样 可 以 保证 各 节点 按照 一 致 的 方式 添加 到 每 个 数据 流 岁 中 。 


1. 正 确 的 实践 一 一 创建 新 的 数据 流 图 ， 将 默认 数据 流 图 忽略 


import tensorflow as tf 


tf .Graph() 
tf .Graph() 


g1 
g2 


with g1.as_default(): 
# 定义 g1L 中 的 Op、 张 量 等 


with g2.as default(): 
# 定义 gq2 中 的 Op、 张 量 等 
2. 正 确 的 实践 一 一 获取 默认 数据 流 图 的 句柄 
import tensorfLow as tf 


tf.get default graph() 
tf .Graph() 


g1 
g2 


with g1.as_default(): 
# 定义 g1 的 Op、 张 量 等 


with g2.as default(): 
# 定义 g2 中 的 Op、 张 量 等 


3. 错 误 的 实践 一 一 将 默认 数据 流 图 和 用 户 创建 的 数据 流 图 混合 使 用 
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import tensorflow as tf 


g2 = tf.Graph() 


with g2.as_default(): 
# 定义 92 中 的 OP 、 张 量 等 


此 外 ， 从 其 他 TensorFlow 肢 本 中 加 载 之 前 定义 的 模型 ， 并 利用 Graph.as graph def © #lltfimport graph def O 函数 将 其 赋 给 Graph 对 象 也 是 可 行 的 。 这 样 ， 用 户 
便 可 在 同一 个 Python 文 件 中 计算 和 使 用 若干 独立 的 模型 的 输出 。 本 书后 续 章节 将 介绍 数据 流 图 的 导入 和 导出 。 





3.2.6 TensorFlow Session 


在 之 前 的 练习 中 ， 我 们 曾经 介绍 过 ，Session 类 负责 数据 流 图 的 执行 。 构 造 方法 给 Session〈() 接收 3 个 可 选 参数 : 


target 指 定 了 所 要 使 用 的 执行 引擎 。 对 于 大 多 数 应 用 ， 该 参数 取 为 默认 的 空 字符 串 。 在 分 布 式 设置 中 使 用 Session 对 象 时 ， 该 参数 用 于 连接 不 同 的 萎 train.Server 实 





例 〈 本 书后 续 章节 将 对 此 进行 介绍 〉。 


“graph 参 数 指定 了 将 要 在 Session 对 象 中 加 载 的 Graph 对 象 ， 其 默认 值 为 None， 表 示 将 使 用 当前 默认 数据 流 图 。 当 使 用 多 个 数据 流 图 时 ， 最 好 的 方式 是 显 式 传 入 你 
希望 运行 的 Graph 对 象 〈 而 非 在 一 个 with 语句 块 内 创建 Session 对 象 ) 。 


config 参 数 允 许 用 户 指定 配置 Session 对 象 所 需 的 选项 ， 如 限制 CPU 或 GPU 的 使 用 数目 ， 为 数据 流 图 设置 优化 参数 及 日 志 选项 等 。 
在 典型 的 TensorFlow 程 序 中 ， 创 建 Session 对 象 时 无 需 改 变 任何 默认 构造 参数 。 
import tensorflow as tf 
创建 Op、Tensor 对 象 等 (使 用 默认 数据 流 图 ) 


# 
a= tf.add(2, $) 
b = tf.mul(a, 3) 


# 利用 默认 数据 流 图 启动 一 个 Session 对 象 
sess = tf.Session() 
请 注意 ， 下 列 两 种 调用 方式 是 等 价 的 : 


sess = tf.Session() 
sess = tf.Session(graph=tf.get_default_graph()) 


一 旦 创建 完 Session 对 象 ， 便 可 利用 其 主要 的 方法 run() 来 计算 所 期 望 的 Tensor 对 象 的 输出 : 
sess.run(b) # #21 


Session.run © 方法 接收 一 个 参数 ftches， 以 及 其 他 三 个 可 选 参数 : feed dict. optionsfilrun metadata。 本 书 不 打算 对 options 和 run metadata 进 行 介绍 ， 因 为 它们 尚 
处 在 实验 阶段 《因此 以 后 很 可 能 会 有 变动 )， 且 目前 用 途 非常 有 限 ， 但 理解 feed_dict 非 常 重要 ， 下 文 将 对 其 进行 讲解 。 
1.fetches 参 数 


fetches 参 数 接收 任意 的 数据 流 图 元 素 (Op 或 Tensor 对 象 ) ， 后 者 指定 了 用 户 希望 执行 的 对 象 。 如 果 请 求 对 象 为 Tensor 对 象 ， 则 run(》 的 输出 将 为 一 NumPy 数 
组 ， 如 果 请 求 对 象 为 一 个 Op， 则 输出 将 为 None。 


在 上 面 的 例子 中 ， 我 们 将 fgtches 参 数 取 为 张 量 b(tfmul Op 的 输出 ) 。TensorFlow 便 会 得 到 通知 ，Session 对 象 应 当 找 到 为 计算 b 的 值 所 需 的 全 部 节点 ， 顺 序 执行 这 
些 节点 ， 然 后 将 b 的 值 输出 。 我 们 还 可 传 入 一 个 数据 流 图 元 素 的 列表 : 
sess.run([a, b]) # #&f [7, 21] 


ww ai bbt. com TAAWOAA 











当 人 tches 为 一 个 列表 时 ，rum〈) 的 输出 将 为 一 个 与 所 请 求 的 元 素 对 应 的 值 的 列表 。 在 本 例 中 ， 请 求 计算 a 和 b 的 值 ， 并 保持 这 种 次 序 。 由 于 a 和 b 均 为 张 量 ， 因 此 
会 接收 到 作为 输出 的 它们 的 值 。 


除了 利用 fetches 获 取 Tensor 对 象 输出 外 ， 还 将 看 到 这 样 的 例子 : 有 时 也 会 赋予 ftches 一 个 指向 某 个 Op 的 句柄 ， 这 是 在 运行 中 的 一 种 有 价值 的 用 法 。 
tfinitialize all variables © 便 是 一 个 这 样 的 例子 ， 它 会 准备 将 要 使 用 的 所 有 TensorFlow Variable 对 象 〈 本 章 稍 后 将 介绍 Variable 对 象 ) 。 我 们 仍然 将 该 Op 传 给 fetches 参 
数 ， 但 Sessionrun〈) 的 结果 将 为 None: 





# 执行 初始 化 Variable 对 象 所 需 的 计算 ， 但 返回 值 为 None 
sess.run(tf.initialize all variables()) 


2.feed dict 参 数 


参数 feed dict 用 于 上 履 兰 数据 流 图 中 的 Tensor 对 象 值 ， 它 需要 Python 字典 对 象 作为 输入 。 字 典 中 的 ' 键 ?为 指 同 应 当 被 覆盖 的 Tensor 对 象 的 句柄 ， 而 字典 的 " 值 ? 柯 以 是 
数字 、 字 符 串 、 列 表 或 NumPy 数 组 〈 之 前 介绍 过 ) 。 这 些 ' 值 ?的 类 型 必须 与 Tensor 的 ' 键 ?相同 ， 或 能 够 转换 为 相同 的 类 型 。 下 面 通 过 一 些 代码 来 展示 如 何 利 用 
feed_dict 重 写 之 前 的 数据 流 图 中 a 的 值 : 





import tensorflow as tf 


I Op, Tensor} A= 〈 使 用 默认 的 数据 流 图 ) 
a= , tf.add(2, 5) 
b = tf.mul(a, 3) 
# 利用 默认 的 数据 流 图 启动 一 个 Session 对 象 


sess = tf.Session() 


# 定义 一 个 字典 ， 比 如 将 a 的 值 蔡 换 为 15 
replace dict = {a: 15} 


# iz47Sessionx &, replace_dictit Afeed_dict 
sess.run(b, feed dict=replace dict) # ik 45 


请 注意 ， 即 便 a 的 计算 结果 通常 为 7， 我 们 传 给 feed _dict 的 字典 也 会 将 它 蔡 换 为 1$。 在 相当 多 的 场合 中 ，feed_dict 都 极为 有 用 。 由 于 张 量 的 值 是 预先 提供 的 ， 数 据 
流 图 不 再 需要 对 该 张 量 的 任何 普通 依赖 节点 进行 计算 。 这 意味 着 如 果 有 一 个 规模 较 大 的 数据 流 图 ， 并 希望 用 一 些 虚构 的 值 对 某 些 部 分 进行 测试 ，TensorFlow 将 不 会 
在 不 必要 的 计算 上 浪费 时 间 。 对 于 指定 输入 值 ，feed_dict 也 十 分 有 用 ， 在 稍 后 的 占 位 符 一 节 中 我 们 将 对 此 进行 











Session 对 象 使 用 完毕 后 ， 需 要 调用 其 close O 方法 ， 将 那些 不 再 需要 的 资源 释放 : 


# 创建 Session 对 象 
sess = tf.Session() 


# 运行 该 数据 流 图 ， 写 入 一 些 概 括 统计 量 等 
# 关闭 数据 流 图 ， 释 放 资 源 
sess.close() 


或 者 ， 也 可 以 将 Session 对 象 作 为 上 下 文 管理 器 加 以 使 用 ， 这 样 当代 码 离开 其 作用 域 后 ， 该 Session 对 象 将 自动 关闭 : 


with tf.Session() as sess: 
# 运行 数据 流 图 ， 写 入 概括 统计 量 等 


# Session 对 和 象 自动 关闭 


也 可 利用 Session 类 的 as_defaut《〈) 方法 将 Session 对 象 作为 上 下 文 管理 器 加 以 使 用 。 类 似 于 Graph 对 象 被 菜 些 Op 隐 式 使 用 的 方式 ， 可 将 一 个 Session 对 象 设置 为 可 被 
某 些 函数 自动 使 用 。 这 些 函 数 中 最 常见 的 有 Operationrun O #llTensor.eval © ， 调 用 这 些 函 数 相当 于 将 它们 直接 传 入 Sessionrun O 函数 。 
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# 定义 简单 的 常量 

a = tf.constant(5) 
# 创建 一 个 Session 对 象 
sess = tf.Session() 


# 在 With 语 名 块 中 将 该 Session 对 象 作 为 默认 Session 对 象 
with sess.as default(): 
a.eval() 


# 必须 手工 关闭 Session 对 象 
sess.close() 


关于 InteractiveSession 的 进一步 讨论 


在 本 书 之 前 的 章节 中 ， 我 们 提 到 JInteractiveSession 是 另外 一 种 类 型 的 TensorFljow 会 话 ， 但 我 们 不 打算 使 用 它 。InteractiveSession 对 象 所 做 的 全 部 内 容 是 在 运行 时 将 
其 作为 默认 会 话 ， 这 在 使 用 交互 式 Python shel 的 场合 是 非常 方便 的 ， 因 为 可 使 用 aeval O 或 arun O ， 而 无 须 显 式 键入 sessrun (a) 。 然 而 ， 如 果 需 要 同时 使 用 多 
个 会 话 ， 则 事情 会 变 得 有 些 环 手 。 笔 者 发 现 ， 在 运行 数据 流 图 时 ， 如 果 能 够 保持 一 致 的 方式 ， 将 会 使 调试 变 得 更 容易 ， 因 此 我 们 坚持 使 用 常规 的 Session 对 象 。 




















既然 已 对 运行 数据 流 图 有 了 切实 的 理解 ， 下 面 来 探讨 如 何 恰当 地 指定 输入 节点 ， 并 结合 它们 来 使 用 feed dict. 
3.2.7 利用 占 位 节点 添加 输入 


之 前 定义 的 数据 流 图 并 未 使 用 真正 的 ' 输 入” 它 总 是 使 用 相同 的 数值 S 和 3。 我 们 真正 希望 做 的 是 从 客户 那里 接收 输入 值 ， 这 样 便 可 对 数据 流 图 中 所 描述 的 变换 
以 各 种 不 同类 型 的 数值 进行 复 用 ， 借 助 占 位 符 ” 可 达到 这 个 目的 。 正 如 其 名 称 所 预示 的 那样 ， 占 位 符 的 行为 与 Tensor 对 象 一 至， 但 在 创建 时 无 须 为 它们 指定 具体 的 
数值 。 它 们 的 作用 是 为 运行 时 即将 到 来 的 某 个 Tensor 对 象 预 留 位 置 ， 因 此 实际 上 变 成 六 输 入 点。 利用 萎 placeholdder Op 可 创建 占 位 符 : 


import tensorflow as tf 
import numpy as np 


# 创建 一 个 长 度 为 2、 数 据 类 型 为 int32 的 占 位 向 量 
a = tf.placeholder(tf.int32, shape=[2], name="my_input") 


# 将 该 占 位 向 量 视 为 其 他 任意 Tensor 对 象 ， 加 以 使 用 
b = tf.reduce prod(a, name="prod b") 
c = tf.reduce sum(a, name="sum_c" 


# 完成 数据 流 图 的 定义 
d = tf.add(b, c, name="add d") 


ii A tfiplaceholder © 时 ，dtype 参 数 是 必须 指定 的 ， 而 shape 参 数 可 选 : 





dtype 指 定 了 将 传 给 该 占 位 符 的 值 的 数据 类 型 。 该 参数 是 必须 指定 的 ， 因 为 需要 确保 不 出 现 类 型 不 匹配 的 错误 。 
shape 指 定 了 所 要 传 入 的 Tensor 对 象 的 形状 。 请 参考 前 文中 对 Tensor 形 状 的 讨论 。shape 参 数 的 默认 值 为 None， 表 示 可 接收 任意 形状 的 Tensor 对 象 。 
与 任何 Op 一 样 ， 也 可 在 从 placeholder 中 指定 一 个 name 标 识 符 。 


为 了 给 占 位 符 传 入 一 个 实际 的 值 ， 需 要 使 用 Session.ruan〈) 中 的 feed_dict 参 数 。 我 们 将 指向 占 位 符 输出 的 句 顶 作为 字典 (在 上 述 代 码 中 ， 对 应 变量 a) E, 
将 希望 传 入 的 Tensor 对 象 作为 字典 的 ' 值 ” 
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# 定义 一 个 TensorFlow Session 对 象 
sess = tf.Session() 


# 创建 一 个 将 传 给 feed _dict 参 数 的 字典 

# 键 : a ,指向 占 位 符 输出 Tensor 对 象 的 句柄 

# fi: 一 个 值 为 [5,3] 、 类 型 为 int32 的 向 量 

input_dict = {a: np.array([5, 3], dtype=np.int32)} 


# 计算 d 的 值 ， 将 input_dict 的 “ 值 ” 传 给 a 
sess.run(d, feed dict=input_dict) 


必须 在 feed_dict 中 为 竺 计算 的 节点 的 每 个 依赖 占 位 符 包 含 一 个 键 值 对 。 在 上 面 的 代码 中 ， 需 要 计算 d 的 输出 ， 而 它 依赖 于 a 的 输出 。 如 果 还 定义 了 一 些 d 不 依赖 的 
其 他 占 位 符 ， 则 无 需 将 它们 包含 在 feed_dict 中 。 





placeholder 的 值 是 无 法 计算 的 一 一 如 果 试 图 将 其 传 入 Sessionrun O ， 将 引发 一 个 异常 。 


3.2.8 Variable 对 象 


1. 创 建 Variable 对 象 





Tensor 对 象 科 Op 对 象 都 是 不 可 变 的 (imnmtable〉， 但 机 器 学 习 任务 的 本 质 决 定 了 需要 一 种 机 制 保 存 随 时 间 变 化 的 值 。 借 助 TensorFlow 中 的 Variable 对 象 ， 便 可 达 
到 这 个 目的 。Variable 对 象 包含 了 在 对 Sessionrun〈) 多 次 调用 中 可 持久 化 的 可 变 张 量 值 。Variable 对 象 的 创建 可 通过 Variable 类 的 构造 方法 给 Variable〈() 完成 : 


import tensorflow as tf 


# 为 Variable 对 象 传 入 一 个 初始 值 3 
my _ var = tf.Variable(3, name="my_variable" ) 





Variable 对 象 可 用 于 任何 可 能 会 使 用 Tensor 对 象 的 TensorFlow 函 数 或 Op 中 ， 其 当前 值 将 传 给 使 用 它 的 Op: 


add 
mul 


tf.add(5, my_var) 
tf.mul(8, my_var) 





Variables 对 象 的 初 值 通常 是 全 0、 全 1 或 用 随机 数 填充 的 阶 数 较 高 的 张 量 。 为 使 创建 具有 这 些 常见 类 型 初 值 的 张 量 更 加 容易 ，TensorFlow 提 供 了 大 量 辅助 Op， 如 
tfzeros () . tfones © 、tfrandom normal () 和 tftrandom uniform O ， 每 个 Op 都 接收 一 个 shape 参 数 ， 以 指定 所 创建 的 Tensor 对 象 的 形状 : 


# 2X2 的 零 矩 阵 
zeros = tf.zeros([2, 2]) 


# 长 度 为 6 的 全 1 向 量 
ones = tf.ones([6]) 


# 3X3X3 的 张 量 ， 其 元 素 服从 0w~10 的 均匀 分 布 
uniform = tf.random_uniform([3, 3, 3], minval=0, maxval=10) 


# 3X3X3 的 张 量 ， 其 元 素 服 从 0 均值 、 标 准 差 为 2 的 正 态 分 布 
normal = tf.random_normal([3, 3, 3], mean=0.0, stddev=2.0) 


除了 ttrandom normal O Yh, AK LZA SATE thtruncated_norml O ， 因 为 它 不 会 创建 任何 偏离 均值 超过 2 倍 标准 差 的 值 ， 从 而 可 以 防止 有 一 个 或 两 个 元 
素 与 该 张 量 中 的 其 他 元 素 显 著 不 同 的 情况 出 现 : 
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# 该 TenSor 对 象 不 会 返回 任何 小 于 3.0 或 大 于 7.0 的 值 
trunc = tf.truncated_normal([2, 2], mean=5.0, stddev=1.0) 


可 像 手 工 初 始 化 张 量 那 样 将 这 些 Op YEW Variable 对 象 的 初 值 传人: 


# 默认 均值 为 0， 默 认 标 准 差 为 1.0 
random var = tf.Variable(tf.truncated normal([2, 2])) 


2.Variable 对 象 的 初始 化 





Variable 对 象 与 大 多 数 其 他 TensorFlow 对 象 在 Graph 中 存在 的 方式 都 比较 类 似 ， 但 它们 的 状态 实际 上 是 由 Session 对 象 管理 的 。 因 此 ， 为 使 用 Variable 对 象 ， 需 要 采 
取 一 些 额 外 的 步 又 一 一 必须 在 一 个 Session 对 象 内 对 Variable 对 象 进行 初始 化 。 这 样 会 使 Session 对 象 开始 退路 这 个 Variable 对 象 的 值 的 变化 。Variable 对 象 的 初始 化 通常 
是 通过 将 tinitialize all variables © Op 传 给 Sessionrun O 完成 的 : 


init = tf.initialize_all_variables() 
sess = tf.Session() 
sess.run(init) 


如 果 只 需要 对 数据 流 图 中 定义 的 一 个 Variable 对 象 子 集 初 始 化 ， 可 使 用 finitialize_ variables © 。 该 函数 可 接收 一 个 要 进行 初始 化 的 Variable 对 象 列表 : 


var1 = tf.Variable(0, name="initialize_me") 
var2 = tf.Variable(1, name="no_initialization") 
init = tf.initialize_variables([var1], name="init_var1") 


sess = tf.Session() 
sess.run(init) 


3.Variable 对 象 的 修改 





要 修改 Variable 对 象 的 值 ， 可 使 用 Variable.assign() 方法 。 该 方法 的 作用 是 为 Variable 对 象 赋予 新 值 。 请 注意 ，Variable.assien() 是 一 个 Op， 要 使 其 生效 必须 在 一 
个 Session 对 象 中 运行 : 


# 创建 一 个 初 值 为 1 的 Variable 对 象 


my var = tf.Variable(1) 


# 创建 一 个 Op， 使 其 在 每 次 运行 时 都 将 该 Variable 对 象 乘 以 2 
my_var_times two = my_var.assign(my_var * 2) 


# 初始 化 Op 
init = tf.initialize all variables() 


~ A ` 
# 启动 一 个 会 话 
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sess = tf.Session() 


# 初始 化 Variable 对 象 
sess.run(init) 


# 将 Variable 对 象 乘 以 2， 并 将 其 返回 
sess.run(my_var_times_two) 


## 输出 : 2 
# 再 次 相 乘 


sess.run(my_var_times_two) 
HH 输出 : 4 


# 再 次 相 乘 
sess.run(my_var_times_two) 


## 输出 : 8 


对 于 Variable 对 象 的 简单 自 增 和 自 减 ，TensorFlow 提 供 了 Variable.assign add © 方法 和 Variable.assign sub O 方法 : 


# 自 增 1 
sess.run(my_var.assign_add(1)) 


# 自 减 1 
sess.run(my_var.assign_sub(1)) 


由 于 不 同 Session 对 象 会 各 自 独 立地 维护 Variable 对 象 的 值 ， 因 此 每 个 Session 对 象 都 拥有 自己 的 、 在 Graph 对 象 中 定义 的 Variable 对 象 的 当前 值 : 


# 创建 一 些 Dp 
my _ Var = tf.Variable(0) 
init = tf.initialize_all_variables() 


# 启动 多 个 Session 对 象 
tf.Session() 
tf.Session() 


sessl 
sess2 


# 在 Sess1 内 对 Variable 对 象 进行 初始 化 ， 以 及 在 同一 Session 对 象 中 对 my_var 的 值 自 增 
sessi.run(init) 
sessi.run(my_var.assign_add(5)) 


## 输出 : 5 
# 在 SesSs2 内 做 相同 的 运算 ， 但 使 用 不 同 的 自 增值 


sess2.run(init) 
sess2.run(my_var.assign_add(2)) 
## 输出 : 2 


# 能 够 在 不 同 Session 对 象 中 独立 地 对 Variable 对 象 的 值 实施 自 增 运算 


sessi.run(my_var.assign_add(5)) 
## 输出 : 10 


sess2.run(my_var.assign_add(2)) 
## 输出 : 4 





如 果 希 望 将 所 有 Variable 对 象 的 值 重 置 为 初始 值 ， 则 只 需 再 次 调用 tfinitalize all variables () (如 果 只 希望 对 部 分 Variable 对 象 重 新 初始 化 ， 可 调用 
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tfinitialize variables () ) : 


# 创建 Op 
my_var = tf.Variable(0) 
init = tf.initialize all variables() 


# 启动 Session 对 象 
sess = tf.Session() 


# 初始 化 Variable 对 入 
sess.run(init) 


# 修改 Variable 对 象 的 值 
sess.run(my_var.assign(10)) 


# #Variablex % i tW E E WH HA +6120 
sess.run(init) 


4 trainable ži 








在 本 书 的 后 续 章 节 将 介绍 各 种 能 够 目 动 训练 机 器 学 习 模 型 的 Optimizer 类 ， 这 意味 着 这 些 类 将 上 自动 修改 Variable 对 象 的 值 ， 而 无 须 显 式 做 出 请 求 。 在 大 多 数 情 况 
下 ， 这 与 读者 的 期 望 一 致 ， 但 如 果 要 求 Graph 对 象 中 的 一 些 Variable 对 象 只 可 手工 修改 ， 而 不 允许 使 用 Optimizer 关 时 ， 可 在 创建 这 些 Variable 对 象 时 将 其 trainable 参 数 设 
为 False: 





not_trainable = tf.Variable(0, trainable=False) 


MY PIRATE Bas EAN BN a OI RAL TT SEIN Variable xt R, 1 A AD ris BIA AE o 





[1] 从 技术 角度 讲 ，NumPy 也 能 够 自动 检测 数据 类 型 ， 但 笔者 强烈 建议 你 养 成 显 式 声明 Tensor 对 象 的 数值 属性 的 习惯 ， 因为 当 人 处理 的 流 图 规模 较 大 时 ， 相信 你 一 定 
不 希望 去 逐一 排查 到 底 哪些 对 象 导致 了 TypeMismatchError ! 当然 ， 有 一 个 例外 ， 那 就 是 当 处 理 字符 串 时 一 创建 字符 串 Tensor 对 象 时 ， 请 勿 指定 dtype 属性 。 
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3.3 ”通过 名 称 作用 域 组 织 数 据 流 图 


现在 开始 介绍 构建 任何 TensorFlow 数 据 流 图 所 必需 的 核心 构件 。 到 目前 为 止 ， 我 们 只 接触 了 包含 少量 节点 和 阶 数 较 小 的 张 量 的 非常 简单 的 数据 流 图 ， 但 现实 
世界 中 的 模型 往往 会 包含 几 十 或 上 百 个 节点 ， 以 及 数 以 百 万 计 的 参数 。 为 使 这 种 级 别 的 复杂 性 可 控 ，TensorFlow 当 前 提供 了 一 种 帮助 用 户 组 织 数 据 流 图 的 机 制 


一 一 名 称 作 用 域 Cname scope) 。 


名 称 作用 域 非 常 易于 使 用 ， 且 在 用 TensorBoard 对 Graph 对 象 可 视 化 时 极 有 价值 。 本 质 上 ， 名 称 作用 域 允许 将 Op 划分 到 一 些 较 大 的 、 有 名 称 的 语句 块 中 。 当 以 





后 用 TensorBoard 加 载 数据 流 图 时 ， 每 个 名 称 作用 域 都 将 对 其 自己 的 Op 进行 封装 ， 从 而 获得 更 好 的 可 视 化 效果 。 名 称 作用 域 的 基本 用 法 是 将 Op 添加 到 with 


tfname scope (<name>) 语句 块 中 。 


import tensorflow as tf 


with tf.name_scope("Scope A"): 
a = tf.add(1, 2, name="A_add") 
b = tf.mul(a, 3, name="A_ mul") 


with tf.name_scope("Scope_ B"): 
c = tf.add(4, 5, name="B add") 
d = tf.mul(c, 6, name="B_ mul") 


e = tf.add(b, d, name="output") 
为 了 在 TensorBoard 中 看 到 这 些 名 称 作用 域 的 效果 ， 可 打开 一 个 SummaryWritter 对 象 ， 并 将 Graph 对 象 写 入 磁盘 。 
writer = tf.train.SummaryWriter('./name_scope 1', 


graph=tf.get_default_graph()) 
writer.cLlose() 





由 于 SummaryWriter 对 象 会 将 数据 流 图 立即 导出 ， 可 在 运行 完 上 述 代 码 便 启 动 TensorBoard。 导 航 到 运行 上 述 脚本 的 路 径 ， 并 局 动 TensorBoard: 


$ tensorboard --logdir='./name_scope_1' 





与 之 前 一 样 ， 上 述 命令 将 会 在 用 户 的 本 地 计算 机 启动 一 个 端口 号 为 6006 的 TensorBoard 服 务 器 。 打 开 浏 览 器 ， 并 在 地 址 栏 键入 localhost:， 6006, Shit 
至 “Graph 标 俭 页 ， 用 户 将 看 到 类 似 于 下 图 的 结果 。 


TensorBoard 





我 们 添加 到 该 数据 流 图 中 的 add 和 mul Op 并 未 立即 显示 出 来 ， 所 看 到 的 是 涵盖 它们 的 命名 作用 域 。 可 通过 单 击 位 于 它们 右上 和 角 的 44" 图标 将 名 称 作用 域 的 方 框 


展开 。 
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TensorBoard 





TERE MEAN, We SI CAMS ZARA PNA TOp, te AK 4 BRE FE RA TE IB EHR : 
graph = tf.Graph() 


with graph.as default(): 

in 1 = tf.placeholder(tf.float32, shape=[], 
name="input_a" ) 

in 2 = tf.placeholder(tf.float32, shape=[], 
name="input_b") 

const = tf.constant(3, dtype=tf.float32, 
name="static_value" ) 


with tf.name_scope("Transformation"): 


with tf.name_scope("A"): 
A_mul = tf.mul(in_1, const) 
A_out = tf.sub(A_mul, in_1) 


with tf.name_scope("B"): 
B_ mul = tf.mul(in_2, const) 
A_out = tf.sub(B_mul, in_2) 


with tf.name_scope("C"): 
C div = tf.div(A_out, B_out) 
C out = tf.add(C_div, const) 


with tf.name_scope("D"): 
D div = tf.div(B_out, A_out) 
D out = tf.add(D div, const) 
out = tf.maximum(C_out, D_out) 


writer = tf.train.SummaryWriter('./name_scope 2', 
graph=graph) 
writer.cLlose() 


上 述 代 码 并 未 使 用 默认 的 Graph 对 象 ， 而 是 显 式 创建 了 一 个 在 Graph 对 象 。 下 面 重新 审视 这 段 代 码 ， 并 聚焦 于 命名 作用 域 ， 了 解 其 组 织 方式 : 
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graph = tf.Graph() 


with graph.as_default(): 
in_1 = tf.placeholder(...) 
in_2 = tf.placeholder(...) 
const = tf.constant(...) 


with tf.name_scope("Transformation" ): 
with tf.name_scope("A"): 


# 接收 in_1， 输 出 一 些 值 


with tf.name_scope("B"): 


# 接收 in_2， 输 出 一 些 值 


with tf.name_scope("C"): 


# 接收 A 和 B 的 输出 ， 并 输出 一 些 值 


with tf.name_scope("D"): 


# 接收 A 和 B 的 输出 ， 并 输出 一 些 值 


# 获取 C 和 和 DD 的 输出 


out = tf.maximum(...) 


现在 对 上 述 代码 进行 分 析 就 更 加 容易 。 这 个 模型 拥有 两 个 标量 占 位 节点 作为 输入 ， 一 个 TensorFlow 常 量 ， 一 个 名 为 "Transfprmation 的 中 间 块 ， 以 及 一 个 使 用 
tmaximum O 作为 其 Op 的 最 终 输 出 节点 。 可 在 TensorBoard 内 看 到 这 种 高 层 的 表示 : 


# 在 终端 启动 TensorBoard， 并 加 载 之 前 定义 的 数据 流 
$ tensorboard --logdir='. /name scope 2' 


TensorBoard 


Maximum 





在 Transformation 名 称 作用 域内 有 另外 4 个 命名 空间 被 安排 到 两 个 “ 层 " 中 。 第 一 层 由 作用 域 “A” 和 "B" 交 成 ， 该 层 将 A 和 B 的 输出 传 给 下 一 层 “C” 和 “D”。 最 后 的 节点 
会 将 来 自 最 后 一 层 的 输出 作为 其 输入 。 在 TensorBoard 中 展开 Trangorpipp 名 谷 像 用 拼 ， 前 看 到 米 似 下 图 的 效果 。 








这 同时 还 赋予 了 我 们 一 个 展示 TensorBoard 男 外 一 个 特性 的 机 会 。 在 上 图 中 ， 可 发 现 名 称 作 用 域 “A* 和 “B” 的 颜色 一 致 〈 蔓 色 ) ，“C” 和 DD 的 基色 也 一 致 ( 绿 
色 ) 。 这 是 因为 在 相同 的 配置 下 ， 这 些 名 称 作 用 域 拥有 相同 的 Op 设置 ， 即 “A 有“B” 都 有 一 个 共 mul(〉 Op 传 给 一 个 人 sub O Op， 而 “C" 和 和 “DD 都 有 一 个 给 div ©) Op 
传 给 ttadd〈“) Op。 如 果 开 始 用 一 些 函 数 创建 重复 的 Op 序列 ， 将 会 非常 方便 。 


“DT FLOAT) 
(tensor: 
(dype DT FLOAT tensor 
-epe i Noat valah 








在 上 图 中 可 以 看 到 ， 当 在 TensorBoard 中 显示 时 ， 从 constant 对 象 的 行为 与 其 他 Tensor 对 象 或 Op 并 不 完全 相同 。 即 使 我 们 没有 在 任何 名 称 作用 域内 声明 
static_value， 它 仍然 会 被 放置 在 这 些 名 称 作用 域内 ， 而 且 ，static_value 并 非 只 出 现 一 个 图 标 ， 它 会 在 被 使 用 时 创建 一 个 小 的 视 沉 元素， 其 基本 思想 是 常量 可 在 任意 
时 间 使 用 ， 且 在 使 用 时 无 须 遭 循 任何 特定 顺序 。 为 防止 在 数据 流 图 中 出 现 从 单 点 引出 过 多 箭头 的 问题 ， 只 有 当 常 量 被 使 用 时 ， 它 才 会 以 一 个 很 小 的 视觉 元 素 的 形 
却 出 现 。 





将 一 个 规模 较 大 的 数据 流 图 分 解 为 一 些 有 意义 的 刻 能 够 使 对 模型 的 理解 和 编译 更 加 方便 。 
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34 练习: 综合 运用 各 种 组 件 


下 面 通过 一 个 综合 运用 了 之 前 讨论 过 的 所 有 组 件 一 一 Tensor 对 象 、Graph 对 象 、Op、Variable 对 象 、 占 位 符 、Session 对 象 以 及 名 称 作用 域 的 练习 来 结束 本 章 。 还 
会 涉及 一 些 TensorBoard 汇 总 数据 ， 以 使 数据 流 图 在 运行 时 能 够 跟踪 其 状态 。 练 习 结 束 后 ， 读 者 将 能 够 自如 地 搭建 基本 的 TensorFlow 数 据 流 图 并 在 TensorBoard 中 对 其 
进行 研究 。 





本 质 上 ， 本 练习 所 要 实现 的 数据 流 图 与 我 们 接触 的 第 一 个 基本 模型 对 应 相同 类 型 的 变换 。 




















5 
23 
3 

但 与 之 前 的 模型 相 比 ， 本 练习 中 的 模型 更 加 充分 地 利用 了 TensorFlow: 
输入 将 采用 占 位 符 ， 而 非 共 constant 节 点 。 
模型 不 再 接收 两 个 离散 标量 ， 而 改 为 接收 一 个 任意 长 度 的 向 量 。 
:使 用 该 数据 流 图 时 ， 将 随时 间 计 算 所 有 输出 的 总 和 。 
.将 采用 名 称 作用 域 对 数据 流 图 进行 合理 划分 。 
.每 次 运行 时 ， 都 将 数据 流 图 的 输出 、 所 有 输出 的 累加 以 及 所 有 输出 的 均值 保存 到 磁盘 ， 供 TensorBoard 使 用 。 
现 可 直观 感受 一 下 本 练习 中 的 数据 流 图 。 
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1 
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| 
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[None] | 

I 
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1 

| 

[] [] 


variables 





在 解读 该 模型 时 ， 有 一 些 关 键 点 需要 注意 ; 
注意 每 条 边 的 附近 都 标识 了 [None] 或 0] 。 它 们 代表 了 流 经 各 条 边 的 张 量 的 形状 ， 其 中 None 代 表 张 量 为 一 个 任意 长 度 的 向 量 ，[] 代 表 一 个 标量 。 


:节点 d 的 输出 流入 “pdate" 环 节 ， 后 者 包含 了 更 新 各 Variable 对 象 以 及 将 数据 传 入 TensorBoard 汇 总 所 需 的 Op。 
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-用 一 个 独立 的 名 称 作 用 域 包含 两 个 Variable 对 象 。 这 两 个 Variable 对 象 中 一 个 用 于 存储 输出 的 累加 和 ， 男 一 个 用 于 记录 数据 流 图 的 运行 次 数 。 由 于 这 两 个 Variable 
对 象 是 在 主要 的 变换 工作 流 之 外 发 挥 作用 的 ， 因 此 将 其 放 在 一 个 独立 的 空间 中 是 完全 合理 的 。 





“TensorBoard 汇 总 数据 有 一 个 专属 的 名 称 作 用 域 ， 用 于 容纳 给 scalar_summary Op。 我 们 将 它们 放 在 “update 环节 之 后 ， 以 确保 汇总 数据 在 Variable 对 象 更 新 完成 后 
才 被 添加 ， 人 否则 运算 将 会 失控 。 


下 面 开始 动手 实践 吧 ! 打开 代码 编辑 器 或 交互 式 Python 环境 。 
3.4.1 构建 数据 流 图 


我 们 要 做 的 第 一 件 事 永远 是 导入 TensorFlow 库 : 


import tensorflow as tf 





下 面 显 式 创 建 一 个 Graph 对 象 加 以 使 用 ， 而 非 使 用 默认 的 Graph 对 象 ， 因 此 需要 用 Graph 类 的 构造 方法 维 Graph ©) : 
graph = tf.Graph() 

接着 在 构造 模型 时 ， 将 上 述 新 Graph 对 象 设 为 默认 Graph 对 象 : 
with graph.as default(): 


在 我 们 的 模型 中 有 两 个 “全 局 ”风格 的 Variable 对 象 。 第 一 个 是 “global step”” 用 于 追踪 模型 的 运行 次 数 。 在 TensorFlow 中 ， 这 是 一 种 常见 的 范式 ， 在 整个 API 中 ， 
这 种 范式 会 频繁 出 现 。 第 二 个 Variable 对 象 是 “total ouput”” 其 作用 是 奶 踩 该 模型 的 所 有 输出 随时 间 的 累加 和 。 由 于 这 些 Variable 对 象 本 质 上 是 全 局 的 ， 因 此 在 声明 它 
们 时 需要 与 数据 流 图 中 的 其 他 市 点 区 分 开 来 ， 并 将 它们 放 入 上 自己 的 名 称 作用 域 。 


with graph.as default(): 


with tf.name_scope("variables"): 
# 记录 数据 流 图 运行 次 数 的 Variable 对 象 
has been run 
global_step = tf.Variable(0, dtype=tf.int32, 
trainable=False, name="global_step”) 


# 追踪 该 模型 的 所 有 输出 随时 间 的 累加 和 和 的 Variable 对 和 象 


total_output = tf.Variable(0.0, dtype=tf.float32, 
trainable=False, name="total_ output") 


请 注意 ， 这 里 使 用 了 trainable=False 设 置 ， 这 并 不 会 对 模型 造成 影响 〈 因 为 并 没有 任何 训练 的 步骤 ) ， 但 该 设置 明确 指定 了 这 些 Variable 对 象 只 能 通过 手工 设置 。 





接 下 来 ， 将 创建 模型 的 核心 变换 部 分 。 我 们 会 将 整个 变换 封装 到 一 个 名 称 作 用 域 'transformatiom 中 ， 并 进一步 将 它们 划分 为 三 个 子 名 称 作 用 域 一 一 npuf 
“Sntermediate_layer’’#ll““output’’. 
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with graph.as default(): 
with tf.name_scope("variabLles"): 


with tf.name_scope("transformation"): 


with tf.name_scope("input"): 
# 创建 输出 占 位 符 ， 用 于 接收 一 个 向 量 
a = tf.placeholder(tf.float32, shape=[None], 
name="input_pLaceholder_a") 


# 独立 的 中 间 层 

with tf.name scope("intermediate Layer"): 
b = tf.reduce_prod(a, name="product_b") 
c = tf.reduce_sum(a, name="sum_c") 


# 独立 的 输出 层 
with tf.name_scope("output"): 
output = tf.add(b, c, name="output") 


除 少量 关键 之 处 不 同 外 ， 上 述 代码 与 为 之 前 的 模型 所 编写 的 代码 高 上 度 相似 : 
-输入 节点 为 tplaceholder Op， 它 可 接收 一 个 任意 长 度 〈 因 为 shape=[None]) 的 向 量 。 


:对 于 乘法 和 加 法 运算 ， 这 里 并 未 使 用 给 mml(〉 Mtfadd O ， 而 是 分 别 使 用 了 tftreduce prod O 和 tfreduce sum O ， 这 样 便 可 以 对 整个 输入 向 量 实施 乘法 和 加 
法 运算 ， 而 之 前 的 Op 只 能 接收 两 个 标量 作为 输入 。 





经 过 上 述 变换 计算 ， 需 要 对 前 面 定 义 的 两 个 Variable 对 象 进行 更 新 。 下 面 通过 创建 一 个 "update" 名 称 作 用 域 来 容纳 这 些 变化 : 


with graph.as default(): 
with tf.name_scope("variables"): 


with tf.name_scope("transformation" ): 


with tf.name_scope("update"): 
# 用 最 新 的 输出 更 新 Variable 对 象 total output 
update_total = total_output.assign_add(output) 


# 将 前 面 的 Variable 对 象 global_step 增 1， 只 要 数据 流 图 运行 ， 该 操作 便 需 要 进行 
increment step = global step.assign add(1) 


total output 和 global step 的 递增 均 通 过 Variable.assign add © Op 实现 。output 的 值 被 累加 到 total output 中 ， 因 为 希望 随时 间 将 所 有 的 输出 进行 累加 。 对 于 
global step， 只 是 将 其 简单 地 增 1。 


这 两 个 Variable 对 象 更 新 完毕 后 ， 便 可 创建 我 们 感 兴趣 的 TensorBoard 汇 总 数据 ， 可 将 它们 放 入 名 为 "Summaries 的 名 称 作 用 域 中 : 
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with graph.as default(): 


with tf.name_scope("update"): 


with tf.name_scope("summaries"): 


avg = tf.div(update_ total, tf.cast(increment_step, 
tf.float32), name="average” ) 


为 输出 市 点 创建 汇总 数据 
hh Output’, output, 
name="output_summary" ) 
tf.scalar_summary(b'Sum of outputs over time’, 
update total, name="total_ summary") 


tf.scalar_summary(b'Average of outputs over time’, 
avg, name="average_ summary’ ) 


在 该 环节 中 ， 上 所 做 的 第 一 件 事 是 随时 间 计 算 输 出 的 均值 。 笠 运 的 是 ， 可 以 获取 当前 全 部 输出 的 总 和 total output EHR A update total 的 输出 ， 以 确保 在 计算 avg 
之 前 更 新 便 已 完成 ) 以 及 数据 流 图 的 总 运行 次 数 gobal step Ut H increment step 的 输出 ， 以 确保 数据 流 图 有 序 运 行 ) 。 一 旦 获得 输出 的 均值 ， 便 可 利用 各 个 
tfscalar Summary 对 象 将 ouput、update total 和 avg 保 存 下 来 。 


为 完成 数据 流 图 的 构建 ， 还 需要 创建 Variable 对 象 初始 化 Op 和 用 于 将 所 有 汇总 数据 组 织 到 一 个 Op 的 辅助 节点 。 下 面 将 它们 放 入 名 为 "gobal ops 的 名 称 作 用 域 : 


with graph.as default(): 
with tf.name_scope("summaries"): 


with pa name_scope("global_ops"): 
初始 化 Op 

rived = tf.initialize_all_variables() 

# 将 所 有 汇总 数据 合并 到 一 个 Op 中 

merged summaries = tf.merge_all_summaries() 
读者 可 能 会 有 一 些 疑 惑 ， 为 什么 将 共 merge al summaries ©) Op 放 在 这 里 ， 而 非 “summaries” 名 称 作 用 域 ? 虽然 两 者 并 无 明显 差异 ， 但 一 般 而 言 ， 将 
merge all summaries O 与 其 他 全 局 Op 放 在 一 起 是 最 佳 做 法 。 我 们 的 数据 流 图 只 为 汇总 数据 设置 了 一 个 环节 ， 但 这 并 不 妨碍 去 想象 一 个 拥有 Variable 对 象 、Op 和 名 称 
作用 域 等 的 不 同 汇 总 数据 的 数据 流 图 。 通 过 保持 merge all summaries O 的 分 离 ， 可 确保 用 户 无 需 记 忆 放 置 它 的 特定 "Summary ”代码 块 ， 从 而 比较 容易 找到 该 Op。 











以 上 便 是 构建 数据 流 图 的 全 部 内 容 ， 但 要 使 这 个 数据 流 图 能 够 运行 ， 还 需要 完成 一 些 设置 。 
3.4.2 ”运行 数据 流 图 


打开 一 个 Session 对 象 ， 并 加 载 已 经 创建 好 的 Graph 对 象 ， 也 可 打开 一 个 tttrian.SummaryVWriter 对 象 ， 便 于 以 后 利用 它 保存 汇总 数据 。 下 面 将 .Jimnproved graph 作 为 保 
存 汇 总 数据 的 目标 文件 夹 : 


sess = tf.Session(graph=graph) 
writer = tf.train.SummaryWriter('./improved_graph', graph) 


Session 对 象 启动 后 ， 在 做 其 他 事 之 前 ， 先 对 各 Variable 对 象 进行 初始 化 : 


sess.run(init) 











为 运行 该 数据 流 图 ， 盐 要 创建 一 个 辅助 函数 run_ graph O ， 这 样 以 后 便 无 需 反 复 输入 相同 的 代码 。 我 们 希望 将 输入 回 量 传 给 该 函数 ， 而 后 者 将 运行 数据 流 图 ， 
并 将 汇总 数据 保存 下 来 : 
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def run_graph(input_tensor): 
feed dict = {a: input_tensor} 
_, step, summary = sess.run([output, increment_step, 
merged summaries], 
feed _dict=feed dict) 
writer.add summary(summary, global_step=step) 


下 面 对 run graph © 函数 逐 行进 行 解析 : 


D 首先 创建 一 个 由 给 Sessionrun〈) 中 feed _dict 参 数 的 字典 ， 这 对 应 于 萎 placeholder 节 点 ， 并 用 到 了 其 句柄 a。 








2) 然后 ， 通 知 Session 对 象 使 用 feed dict 运 行 数据 流 图 ， 我 们 希望 确保 output、increment step 以 及 merged summaries Op 能 够 得 到 执行 。 为 写 入 汇总 数据 ， 需 要 保存 
global step 和 merged summaries 的 值 ， 因 此 将 它们 保存 到 Python 变 量 step 和 summary 中 。 这 里 用 下 划 线 “" 凌 示 我 们 并 不 关心 output 值 的 存储 。 





3) 最 后 ， 将 汇总 数据 添加 到 SummaryWriter 对 象 中 。global step 参 数 非常 重要 ， 因 为 它 使 TensorBoard 可 随时 间 对 数据 进行 图 示 《〈 稍 后 将 看 到 ， 它 本 质 上 创建 了 一 
个 折线 图 的 横 轴 ) 。 


下 面 来 实际 使 用 这 个 函数 ， 可 变换 回 量 的 长 度 来 多 次 调用 run graph ©) 函数 : 


run_graph([2,8]) 
run_graph([3,1,3,3]) 
run_graph([8]) 
run_graph([1,2,3]) 
run_graph([11,4]) 
run_graph([4,1]) 
run_graph([7,3,1]) 
run_graph([6,3]) 
run_graph([0,2]) 
run_graph([4,5,6]) 





上 述 调 用 可 反复 进行 。 数 据 填 充 完 毕 后 ， 可 用 SummaryWriter.fush © 函数 将 汇总 数据 写 入 磁盘 : 
writer.flush() 


最 后 ， 既 然 SummaryWriter 对 象 和 Session 对 象 已 经 使 用 完毕 ， 我 们 将 其 关闭 ， 以 完成 一 些 清 理工 作 : 


writer.cLlose() 
sess.close() 


以 上 便 是 全 部 的 TensorFlow 代 码 ! 虽然 与 之 前 的 数据 流 图 相 比 代码 量 略 大 ， 但 还 不 至 于 过 多 。 下 面 打开 TensorBoard， 看 看 可 以 得 到 什么 结果 。 启 动 终 端 ， 导 航 
至 运行 上 述 代 码 的 目录 (请 确保 “innproved _ graph 目录 在 该 路 径 下 ) ， 并 运行 下 列 命 令 : 


$ tensorboard --logdir="improved graph" 


与 之 前 一 样 ， 该 命令 将 在 6006 端 口 启动 一 个 TensorBoard 服 务 器 ， 并 托管 存储 在 “improved graph 站 的 数据 。 在 浏览 器 中 键入 “localhost: 6006”， 观 察 所 得 到 的 结 
果 。 首 先 检查 “Graph 标签 页 。 
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Summaries 


2 tensors 


global_ops 


„2 tensors 





可 以 看 到 ， 上 图 与 之 前 所 绘制 的 非常 吻合 。 我 们 的 变换 运算 流入 update 方 框 ， 后 者 又 同时 为 summnaries 和 variables 名 称 作 用 域 提供 输入 。 上 图 与 之 前 所 绘制 的 图 表 
的 主要 区 别 体现 在 "gobal ops 名 称 作用 域 上 ， 它 包含 了 一 些 对 于 主要 的 变换 计算 并 不 十 分 关键 的 运算 。 


可 将 各 个 方 框 展开 ， 以 便 在 更 细 的 粒度 上 观察 它们 的 结构 。 


transformation®| \ 


~ 








现在 可 以 看 到 输入 层 、 中 间 层 和 输出 层 是 彼此 分 离 的 。 对 于 像 本 例 这 样 的 简单 模型 ， 这 样 的 划分 可 能 有 些小 题 大 做 ， 但 这 种 类 型 的 划分 方法 是 极为 有 用 的 。 请 
观察 该 数据 流 图 的 其 余部 分 。 当 准备 好 后 ， 请 切换 到 “Events” 页 面 。 
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当 打 开 “Events" 页 面 后 ， 可 以 看 到 3 个 依据 我 们 赋予 各 scalar_summary 对 象 的 标签 而 命名 的 折合 的 标签 页 。 单 击 任 意 一 个 标签 页 ， 便 可 看 到 一 个 精美 的 折线 图 ， 展 
示 了 不 同时 间 点 上 值 的 变化 。 单 击 该 图 表 左 下 方 的 蓝 色 矩形， 它们 会 像 上 图 一 样 展开 。 








仔细 检查 汇总 数据 的 结果 ， 对 其 进行 比较 ， 确 保 它 们 都 是 有 意义 的 ， 然 后 向 自己 表示 祝贺 ! 本 练习 至 此 就 全 部 结束 了 ， 希 望 读 者 能 够 熟练 掌握 如 何 基 于 虚拟 草 
图 创建 TensorFlow 数 据 流 图 ， 以 及 如 何 利 用 TensorBoard 做 一 些 基 础 的 数据 汇总 工作 。 


本 练习 的 完整 代码 如 下 : 
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import tensorflow as tf 


# 显 式 创 建 一 个 Graph 对 象 
graph = tf.Graph() 


with graph.as default(): 


with tf.name_scope("variables"): 
# 追踪 数据 流 图 运行 次 数 的 Variable 对 象 
global_step = tf.Variable(0, dtype=tf.int32, 
trainable=False, name="global_step") 


# 追踪 所 有 输出 随时 间 的 累加 和 的 Variable 对 象 
total_output = tf.Variable(0.0, dtype=tf.float32, 
trainable=False, name="total_output") 


# 主要 的 变换 Op 
with tf.name_scope("transformation"): 


# 独立 的 输入 层 
with tf.name_scope("input"): 
# 创建 可 接收 一 个 向 量 的 占 位 符 
a = tf.placeholder(tf.float32, shape=[None], 
name="input_placeholder_a") 


# 独立 的 中 间 层 

with tf.name_scope("intermediate_lLayer"): 
b = tf.reduce_prod(a, name="product_b") 
c = tf.reduce_sum(a, name="sum_c") 


# 独立 的 输出 层 
with tf.name_scope("output"): 
output = tf.add(b, c, name="output") 


with tf.name_scope("update"): 
# 用 最 新 的 输出 更 新 Variable 对 象 total _output 
update total = total_output.assign_add(output) 


# 将 前 面 的 Variable 对 象 global_step 增 1， 只 要 数据 流 图 运行 ， 该 操作 便 需 要 进行 
increment_step = global_step.assign_add(1) 


# 汇总 Op 
with tf.name scope("summaries"): 
avg = tf.div(update total, tf.cast(increment_step, 
tf.float32), name="average" ) 
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# 为 输出 节点 创建 汇总 数据 

tf.scalar_summary(b'Output', output, 
name="output_summary” ) 

tf.scalar_summary(b'Sum of outputs over time’, 
update _total, name="total_summary") 

tf.scalar_summary(b'Average of outputs over time’, 
avg, name="average_summary" ) 


# 全 局 Variable 对 象 和 Op 
with tf.name scope("global ops"): 
# 初始 化 Op 
init = tf.initialize all variables() 
# 将 所 有 汇总 数据 合并 到 一 个 Op 中 
merged summaries = tf.merge_all_summaries() 


# 用 明确 创建 的 Graph 对 象 和 启动 一 个 会 话 
sess = tf.Session(graph=graph) 


# 开启 一 个 SummaryWriter 对 象 ， 保 存 汇总 数据 
writer = tf.train.SummaryWriter('./improved_graph', graph) 


# 初始 化 Variable 对 象 
sess.run(init) 


def run_graph(input_tensor): 

辅助 函数 ; 用 给 定 的 输入 张 量 运行 数据 流 图 ， 

并 保存 汇总 数据 

feed dict = {a: input_tensor} 

_, step, summary = sess.run([output, increment_step, 
merged summaries], 

feed _dict=feed dict) 
writer.add summary(summary, global_step=step) 


# 用 不 同 的 输入 运行 该 数据 流 图 
run_graph([2,8]) 
run_graph([3,1,3,3]) 
run_graph([8]) 
run_graph([1,2,3]) 
run_graph([11,4]) 
run_graph([4,1]) 
run_graph([7,3,1]) 
run_graph([6,3]) 
run_graph([0,2]) 
run_graph([4,5,6]) 


# 将 汇总 数据 写 入 磁盘 
writer.flush() 
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# 关闭 SummaryWriter 对 象 
writer.close() 


# 关闭 Session 对 象 
sess.close() 
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3.5 ”本 章 小 结 





这 便 是 本 章 的 全 部 内 容 ! 读者 需要 慢 慢 消化 的 内 容 有 很 多 。 既 然 已 掌握 了 TensorFlow 的 基础 内 容 ， 不 妨 大 胆 实 践 。 让 自己 更 
熟练 地 掌握 Op、Variable 类 和 Session 类 ， 并 将 构建 和 运行 数据 流 图 的 工作 流 牢记 在 心 。 




















虽然 对 茶 些 读者 而 言 ， 利 用 TensorFlow 解 决 简单 数学 问题 十 分 有 趣 ， 但 我 们 尚未 接触 该 库 的 主要 用 例 一 一 机 需 学 习 。 下 一 草 
将 介绍 机 融 学 习 中 的 一 些 核心 概念 和 技术 ， 以 及 如 何在 TensorFlow 内 部 运用 这 些 知 识 。 
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Rae ”机 大学 习 基 础 





通过 第 3 章 的 学 习 ， 我 们 已 了 解 了 TensorFlow 的 工作 原理 ， 本 章 将 介绍 该 库 的 主要 用 途 一 一 机 器 学 习 。 





本 章 将 介绍 一 些 机 器 学 习 基础 问题 中 的 高 层 概念 ， 并 和 辅 以 一 些 代码 片段 ， 以 说 明 如 何 利用 TensorFlow 对 相应 的 问题 进行 求 
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本 书 主 要 介绍 有 监督 学 习 问 题 。 在 这 类 问题 中 ， 我 们 的 目标 是 依据 茶 个 融 标 注 信 息 的 输入 数据 集 〈 即 其 中 的 每 个 样本 都 标注 了 真实 的 或 期 望 的 输出 ) 去 训练 


一 个 推 类 模型 。 该 模型 应 能 履 盖 一 个 数据 集 ， 并 可 对 不 存在 于 初始 训练 集中 的 新 样本 的 输出 进行 预测 。 








推断 模型 即 运用 到 数据 上 的 一 系列 数学 运算 。 有 具体 的 运算 步骤 是 通过 代码 设置 的 ， 并 由 用 于 求解 菜 个 给 定 问题 的 模型 确定 。 模 型 确定 后 ， 构 成 模型 的 运算 也 





就 固定 了 。 在 各 运算 内 部 ， 有 一 些 与 其 定义 相关 的 数值 ， 如 ' 乘 以 3”“ 加 2”。 这 些 值 都 是 模型 的 参数 ， 且 在 训练 过 程 中 需要 不 断 更 新 ， 以 使 模型 能 够 学 习 ， 并 对 其 
输出 进行 调整 。 


里 然 不 同 的 推 师 模型 在 所 使 用 的 运算 的 数量 、 运 算 的 组 合 方式 以 及 所 使 用 的 参数 数量 上 干 差 万 别 ， 但 对 于 训练 ， 我 们 始终 可 采用 相同 的 一 般 结构 : 













训练 财 坏 
初始 化 输入 训练 在 训练 数据 上 | | 
模型 参数 “| | 数据 执行 推断 模型 计算 损失 


数据 流 图 的 高 屋 、 通 用 训练 闭环 

我 们 创建 了 一 个 训练 闭环 ， 它 具有 如 下 功能 。 

首先 对 模型 参数 进行 初始 化 。 通 常 采 用 对 参数 随机 赋值 的 方法 ， 但 对 于 比较 简单 的 模型 ， 也 可 以 将 各 参数 的 初 值 均 设 为 0。 

` 读 取 训 练 数据 (包括 每 个 数据 样本 及 其 期 望 输出 ) 。 通 常人 们 会 在 这 些 数 据 送 入 模型 之 前 ， 随 机 打 乱 样本 的 次 序 。 

-在 训练 数据 上 执行 推 时 模型。 这样， 在 当前 模型 参数 配置 下 ， 每 个 训练 样本 都 会 得 到 一 个 输出 值 。 

计算 损失 。 损 失 是 一 个 能 够 刻画 模型 在 最 后 一 步 得 到 的 输出 与 来 自 训练 集 的 期 望 输出 之 间 差 距 的 概括 性 指标 。 损 失 函 数 有 多 种 类 型 ， 本 书 会 陆续 进行 介绍 。 


调整 模型 参数 。 这 一 步 对 应 于 实际 的 学 习 过 程 。 给 定 损失 函数 ， 学 习 的 目的 在 于 通过 大 量 训 练 步 又 改善 各 参数 的 值 ， 从 而 将 损失 最 小 化 。 最 常见 的 集 略 是 使 
用 梯度 下 降 算 法 《〈 接 下 来 的 一 节 中 将 对 该 算法 进行 介绍 ) 。 


上 述 闭 环 会 依据 所 需 的 学 习 速球、 所 给 定 的 模型 及 其 输入 数据 ， 通 过 大 量 循 环 不 断 重复 上 述 过 程 。 


当 训练 结束 后 ， 便 进入 评估 阶段 。 在 这 一 阶段 中 ， 我 们 需要 对 一 个 同样 含有 期 望 输出 信息 的 不 同 训 试 集 依 据 模型 进行 推 果 ， 并 评估 模型 在 该 数据 集 上 的 损 


失 。 该 测试 集中 包含 了 何 种 样本 ,模型 是 预先 无 法 获悉 的 。 通 过 评 佑 ， 可 以 了 解 到 所 训练 的 模型 在 训练 集 之 外 的 推广 能 力 。 一 种 第 见 的 方法 是 将 原始 数据 集 一 分 
为 二 ， 将 70% 的 样本 用 于 训练 ， 其 余 30% 的 样本 用 于 评估 。 


下 面 利 用 上 述 结构 为 模型 训练 和 评估 定义 一 个 通用 的 代码 框架 : 
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import tensorflow as tf 
# 初始 化 变量 和 模型 参数 ， 定 义 训练 闭环 中 的 运算 


def inference(X): 

# 计算 推断 模型 在 数据 X 上 的 输出 ， 并 将 结果 返回 
def loss(X, Y): 

# 依据 训练 数据 X 及 其 期 望 输出 Y 计 算 损失 


def inputs(): 
# 读 取 或 生成 训练 数据 X 及 其 期 望 输出 Y 


def train(total_loss): 
# 依据 计算 的 总 损失 训练 或 调整 模型 参数 


def evaluate(sess, X, Y): 


## 对 训练 得 到 的 模型 进行 评估 


# 在 一 个 会 话 对 象 中 启动 数据 流 图 ， 搭 建 流程 
with tf.Session() as sess: 


tf.initialize all variables().run() 
X，Y = inputs() 


total_loss = loss(X, Y) 
train_op = train(total_Loss) 


coord = tf.train.Coordinator() 
threads = tf.train.start_queue_runners(sess=sess, 
coord=coord) 


# 实际 的 训练 迭代 次 数 

training steps = 1000 

for step in range(training_steps): 
sess.run([train_op]) 
HUTRWAMS HN AN, BAA CV AWE PN A 
if step % 10 == 0: 


print "loss: ", sess.run([total_loss]) 


evaluate(sess, X, Y) 


coord.request_stop() 
coord. join(threads) 
sess.close() 


以 上 便 是 模型 训练 和 评估 的 基本 代码 框架 。 首 先 需 要 对 模型 参数 进行 初始 化 ， 然 后 为 每 个 训练 闭环 中 的 运算 定义 一 个 方法 : 读 取 训练 数据 (inputs 方 法 ) ， 计 
TIERRA 〈inference 方 法 ) ， 计 算 相对 期 望 输出 的 损失 〈loss 方 法 ) ， 调 整 模 型 参数 (train 方 法 ) ， 评 佑 训练 得 到 的 模型 《evaluate 方法 ) ; 之 后 ， 局 动 一 个 会 话 对 
象 ， 并 运行 训练 闭环 。 在 接 下 来 的 儿 节 中 ， 将 针对 不 同类 型 的 推 凯 模 型 为 这 些 模板 方法 填充 所 需 的 代码 。 





当 对 模型 的 啊 应 满意 后 ， 便 可 将 精力 放 在 模型 导出 ， 以 及 用 它 对 所 需要 使 用 的 数据 进行 推 亲 上 。 例 如 为 冰激凌 App 用 户 推荐 不 同 口味 的 冰 激 次 。 
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4.2 ”保存 训练 检查 点 


上 文 曾经 提 到 ， 训 练 模型 意味 着 通过 许多 个 训练 周期 更 新 其 参数 〈 或 者 用 TensorFlow 的 语言 来 说 ， 变 量 ) 。 由 于 变量 都 保存 在 内 存 中 ， 所 以 若 计算 机 经 历 长 
时 间 训 练 后 突然 断 电 ， 所 有 工作 都 将 丢失 。 季 运 的 是 ， 借 助 ttrain.Saver 类 可 将 数据 流 图 中 的 变量 保存 到 专门 的 二 进 制 文件 中 。 我 们 应 当 周 期 性 地 保存 所 有 变量 ， 
创建 检查 点 〈checkpoint) 文件 ， 并 在 必要 时 从 最 近 的 检查 点 恢复 训练 。 


为 使 用 Saver 类 ， 需 要 对 之 前 的 训练 闭环 代码 框架 略 做 修改 : 


# 模型 定义 代码 ……… 
# 创建 一 个 Saver 对 象 
Saver = tf.train.Saver() 


# 在 一 个 会 话 对 象 中 启动 数据 流 图 ， 搭 建 流程 


with tf.Session() as sess: 
# 模型 设置 …… 
# 实际 的 训练 闭环 
for step in range(training steps): 


sess.run([train_op]) 


if step % 1000 == 
saver .save(sess, ‘my-model', global_step=step) 


# MAE 
saver.save(sess, ‘'my-model', global_step=training_ steps) 


sess.close() 








在 上 述 代 码 中 ， 在 开启 会 话 对 象 之 前 实例 化 了 一 个 Saver 对 象 ， 然 后 在 训练 闭环 部 分 插入 了 几 行 代码 ， 使 的 每 完成 1000 次 训练 迭代 便 调 用 一 次 萎 train.Saver.save 
方法 ， 并 在 训练 结束 后 ， 再 次 调用 该 方法 。 每 次 调用 tftrain.Saver.save 方 法 都 将 创建 一 个 遵循 命名 模板 my-modeL {step} 的 检查 点 文件 ， 如 my-modeL1000、my-modeL 
2000 等 。 该 文件 会 保存 每 个 变量 的 当前 值 。 默 认 情 况 下 ，Saver 对 象 只 会 保留 最 近 的 5 个 文件 ， 更 早 的 文件 都 将 被 自动 删除 。 











如 果 希 望 从 某 个 检查 点 恢复 训练 ， 则 应 使 用 共 train.get_checkpoint_ state 方 法 ， 以 验证 之 前 是 否 有 检查 点 文件 被 保存 下 来 ， 而 {ftrain.Saverrestore 方 法 将 负责 恢复 
变量 的 值 。 


with tf.Session() as sess: 
# 模型 设置 …… 
initial_step = 0 


# 验证 
ckpt = 
tf.train.get_checkpoint_state(os.path.dirname(__file_)) 
if pes and ckpt.model_checkpoint_path: 
人 检查 点 恢复 模型 参数 
maqam sai ckpt.model_checkpoint_path) 
initial_step = 
int(ckpt.model_checkpoint_path.rsplit('-', 1)[1]) 


之 前 是 否 已 经 保存 了 检查 点 文件 


# 实际 的 训练 闭环 
for step in range(initial_step, training_steps): 




















在 上 述 代 码 中 ， 首 先 检 查 是 否 有 检查 点 文件 存在 ， 并 在 开始 训练 闭环 前 恢复 各 变量 的 值 ， 还 可 依据 检查 点 文件 的 名 称 恢复 全 局 迭代 次 数 。 
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既然 已 了 解 了 有 监督 学 习 的 一 般 原理 ， 以 及 如 何 保存 训练 进度 ， 接 下 来 将 对 一 些 常 见 的 推断 模型 进行 讨论 。 
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4.3 线性 回归 


在 有 监督 学 习 问 题 中 ， 线 性 回归 是 一 种 最 简单 的 建 模 手段 。 给 定 一 个 数据 点 集合 作为 训练 集 ， 线 性 回归 的 目标 是 找到 一 个 与 这 些 数据 最 为 吻合 的 线性 函数 。 
对 于 2D 数 据 ， 这 样 的 函数 对 应 一 条 直线 。 


线性 回归 


© 训练 集 点 





过 mmm 模型 预测 
an 
ne 
aa 
a 
= 100 

gL | | | 

20 30 40 50 60 


输入 变量 (XX ) 
上 图 展示 了 一 个 2D 情 形 下 的 线性 回归 模型 。 图 中 的 点 代表 训练 数据 ， 而 直线 代表 模型 的 推断 结 
下 面 运 用 少量 数学 公式 解释 线性 回归 模型 的 基本 原理 。 线 性 函数 的 一 般 表达 式 为 : 
Y (X1, X2, 0885 X) = Wi X HWX t + Wixit+b 
HIER GRKE) 形式 为 : 
Y=XW'+b, HP X=(x1, x2, t, Xk), W = wi, Wo, ***, We) 


Y 为 符 预 测 的 值 。 





XI ， 台 ，.….， 允 是 一 组 独立 的 预测 变量 ， 在 使 用 模型 对 新 样本 进行 预测 时 ， 需 要 提供 这 些 值 。 奉 采用 矩阵 形式 ， 可 一 次 性 提供 多 个 样本 ， 其 中 每 行 对 应 一 个 
样本 。 





Wo Wo ao Wi 为 模型 从 训练 数据 中 学 习 到 的 参数 ， 或 赋予 每 个 变量 的 “ 权 值 ”。 





b 也 是 一 个 学 习 到 的 参数 ， 这 个 线性 函数 中 的 常量 也 称 为 模型 的 偏 置 (bias) 。 
下 面 用 代码 来 表示 这 种 模型 。 这 里 没有 使 用 权 值 的 转 置 ， 而 是 将 它们 定义 为 单个 列 向 量 : 


# 初始 化 变量 或 模型 参数 


W = tf.Variable(tf.zeros([2, 1]), name="weights") 


b = tf.Variable(0., name="bias") 


def inference(X): 
return tf.matmul(X, W) + b 


接 下 来 需要 定义 如 何 计算 损失 。 对 于 这 种 简单 的 模型 ， 将 采用 总 平方 误差 ， 即 模型 对 每 个 训练 样本 的 预测 值 与 期 望 输出 之 差 的 平方 的 总 和 。 从 代数 角度 看 ， 
这 个 损失 函数 实际 上 是 预测 的 输出 向 量 与 期 望 向 量 之 间 欧 氏 距 离 的 平方 。 对 于 2D 数 据 集 ， 总 平方 误差 对 应 于 每 个 数据 点 在 垂直 方向 上 到 所 预测 的 回归 直线 的 距离 
的 平方 总 和 。 这 种 损失 函数 也 称 为 [2 范 数 或 [2 损失 函数 。 这 里 之 所 以 采用 平方 ， 是 为 了 避免 计算 平方 根 ， 因 为 对 于 最 小 化 损失 这 个 目标 ， 有 无 平方 并 无 本 质 区 
别 ， 但 有 平方 可 以 节省 一 定 的 计算 量 。 








loss= > yi—y_predicted;) 
i 
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def loss(X, Y): 

Y predicted = inference(X) 

return tf.reduce_sum(tf.squared difference(yY, 
Y_ predicted) ) 


接 下 来 便 可 用 数据 实际 训练 模型 。 例 如 ， 将 准备 使 用 一 个 将 年 龄 、 体 重 《〈 单 位 : 千克 ) 与 血液 脂肪 含量 关联 的 数据 集 
Chttp://people.sc. fsu.eduw/~jburkardt/datasets/regression/x09.txt ) 。 





由 于 这 个 数据 集 规 模 很 小 ， 下 面 直接 将 其 拒 入 在 代码 中 。 下 一 节 将 演示 如 何 像 实际 应 用 场景 中 那样 从 文件 中 读 取 训 练 数据 。 


def inputs(): 

weight_age = [[84, 46], [73, 20], [65, 52], [70, 30], 
[76, 57], [69, 25], [63, 28], [72, 36], [79, 57], [75, 44], 
[27, 24], [89, 31], [65, 52], [57, 23], [59, 60], [69, 48], 
[60, 34], [79, 51], [75, 50], [82, 34], [59, 46], [67, 23], 
[85, 37], [55, 40], [63, 30]] 

blood_fat_content = [354, 190, 405, 263, 451, 302, 288, 
385, 402, 365, 209, 290, 346, 254, 395, 434, 220, 374, 308, 
220, 311, 181, 274, 303, 244] 


return tf.to_float(weight_age), 
tf.to_float(blood fat_content) 





BEE RAY A I is So BRAT BEB RAY HA ET OG CR ERARA) 。 


def train(total_Lloss): 
learning rate = 0.0000001 
return 
tf.train.GradientDescentOptimizer(learning rate).minimize(total_loss) 


运行 上 述 代码 时 ， 将 看 到 损失 函数 的 值 随 训 练 步 数 的 增加 呈现 逐渐 减 小 的 趋势 。 





模型 训练 完毕 后 ， 便 需要 对 其 进行 评估 。 下 面 计算 一 个 年 龄 25 岁 、 体 重 80 干 殉 的 人 的 血液 脂肪 含量 ， 这 个 数据 并 未 在 训练 集中 出 现 过 ， 但 可 将 预测 结果 与 同 
年 龄 的 、 体 重 65 千 元 的 人 进行 比较 : 


def evaluate(sess, X, Y): 
print sess.run(inference([[80., 25.]])) # ~ 303 
print sess.run(inference([[65., 25.]])) # ~ 256 


作为 一 种 快速 评 佑 方法 ， 可 验证 该 模型 学 习 到 了 血液 脂肪 含量 随 体重 下 降 的 衰减 情况 ， 且 输出 值 介 于 原始 数据 训练 值 的 边界 之 间 。 
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44 对 数 几 率 回 归 


线性 回归 模型 所 预测 的 是 一 个 连续 值 或 任意 实数 。 下 面 介 绍 一 种 能 够 回答 Yes-No 类 型 的 问题 (如 ， 这 封 邮件 是 否 为 垃圾 邮件 ?) 的 模型 。 











在 机 器 学 习 领 域 ， 有 一 个 极为 常见 的 函数 一 logistic 函 数 。 由 于 外 形 与 字母 相仿 ， 它 也 称 为 signnoid 函 数 【sigma 为 等 价 于 S 的 希腊 字母 〉。 





f(x)= 


l+e™ 


1.0 





0.05 
| 


从 上 图 可 清楚 地 看 到 logistic/sigmoid 函 数 呈 现 出 类 似 字母 "和 的 形状 。 
logistic 函 数 是 一 个 概率 分 布 函数 ， 即 给 定 某 个 特定 输入 ， 该 函数 将 计算 输出 为 "Success 的 概率 ， 也 就 是 对 问题 的 回答 为 “Yes 的 概率 。 


个 函数 接受 单个 输入 值 。 为 使 该 函数 能 够 接受 多 维 数据 ， 或 来 自 训 练 集中 样本 的 特征 ， 需 要 将 它们 合并 为 单个 值 。 可 利用 上 述 的 线性 回归 模型 表达 式 。 





为 在 代码 中 对 此 进行 表示 ， 可 复 用 线性 模型 的 所 有 元 素 。 不 过 ， 为 了 运用 sigmoid 函 数 ， 需 要 对 预测 部 分 稍 做 修改 。 


# 与 对 数 几 率 回 归 相 同 的 参数 和 变量 初始 化 
W = tf.Variable(tf.zeros([5, 1]), name="weights") 
b = tf.Variable(0., name="bias") 


# 之 前 的 推断 现在 用 于 值 的 合并 
def combine_inputs(X): 
return tf.matmul(X, W) + b 


# 新 的 推断 值 是 将 sigmoid 函 数 运 用 到 前 面 的 合并 值 的 输出 
def inference(X): 
return tf.sigmoid(combine inputs(X)) 


下 面 重点 讨论 该 模型 的 损失 函数 ， 也 可 以 使 用 平方 误差 。logistic 函 数 会 计算 回答 为 Yes 的 概率 。 在 训练 集中 ,，“Yes” 回 答应 当代 表 100% 的 概率 ， 或 输出 值 为 1 的 
概率 。 然 后 ， 损 失 应 当 和 刻画 的 是 对 于 特定 样本 ， 模 型 为 其 分 配 一 个 小 于 1 的 值 的 概率 。 因 此 ， 回 答 “No’ 将 表示 概率 值 为 0， 于 是 损失 是 模型 为 那个 样本 所 分 配 的 概率 
值 ， 并 取 平 方 。 








假设 茶 个 样本 的 期 望 输出 为 "Yes”， 但 模型 为 其 预测 了 一 个 非常 低 的 接近 于 0 的 概率 ， 这 意味 着 几乎 可 以 100% 地 认为 答案 为 "No 


平方 误 送 所 惩 避 的 是 与 损失 为 同一 数量 级 的 情形 ， 就 好 比 为 "No 输出 赋予 的 概率 为 20%、30%， 甚 至 $0%。 





APA ee, ACER AS MIR (cross entropy) 损失 函数 会 更 为 有 效 。 


loss = > y; * log( y_ predicted;)+(1—y,) + log(1—y_predicted;)) 
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可 以 用 可 视 化 的 方式 依据 对 “Yes” 的 预测 结果 ， 对 这 两 种 损失 函数 进行 比较 。 


- logistic 





0= um = um = 
© N 中 ~ D 
So © © © — 


2 NSP ARE 2) KARREAN. CNAME -AERE ““ 惩 如””， 因 为 输出 与 期 望 值 相 去 其 远 。 


fit BIC SOR, SR AT ES an “Ves "的 样本 的 预测 概率 接近 于 0 时 ， 避 项 的 值 就 会 增长 到 接近 于 无 穷 大 。 这 就 使 得 训练 完成 后 ， 模 型 不 可 能 做 出 这 样 的 错误 
THUMM © AEE SOM EAE EA RA FIN TR PR Bo 
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wwaibbt.com TAAWOAA 





def loss(X, Y): 
return 
tf.reduce_mean(tf.nn.sigmoid_cross_ entropy _with_Logits(combine_inputs(X), 


Y)) 


KF SM iis 
(ABC, AOE FEB EAE AY HH UE p CA, WA Ae eT 
该 字符 串 中 每 个 符号 S 编码 所 需 的 平均 最 小 位 数 。 
H=— (pi + log:(p)) 
BR TBE RIA SUPA IIE, SEE AT WO E Wie Sg A Ty Se ER A LO 
fd, Hi Ain] “HELLO” KWAN: 
三 下 =p" E = © = W502 
p( “L” )=2/5=0.4 
H=—3 * 0.2 * log,(0.2)—0.4 * log>(0.4)=1.921 93 
因此 ， 采 用 最 优 编码 方案 时 ,“HELLO” 中 的 每 个 符号 需要 2 位 。 
在 对 符号 编码 时 ， 如 果 假 设 了 其 他 的 概率 q AE ASE BES pi, WY BEDS AES Por T BY Bi 
长 度 就 会 更 大 。 这 正 是 交叉 入 发 挥 作用 的 时 候 。 它 允许 用 户 以 男 外 一 种 次 优 编码 方案 计算 
对 同一 个 字符 串 进 行 编码 所 需 的 平均 最 小 位 数 。 
i= -Èp * log:(q:;)) 
例如 ，ASCII 会 对 每 个 符号 赋予 相同 的 概率 值 9 三 1/256。 下 面 计算 采用 ASCH 编码 时 
Mju) “HELLO” HIZLA: 
a H -a E -a TE )=q( “O° )=1/256 
H=—3 * 0.2 * log(1/256)— 0.4 * log:(1/256)=8 
从 而 采用 ASCH 编码 时 ， 每 个 字符 需要 8 位 ， 这 与 预期 完全 吻合 。 
作为 一 个 损失 函数 ， 假 设 疡 为 所 期 望 的 输出 和 概率 分 布 (“ 编 码 ” )， 其 中 实际 值 有 
100%， 而 任何 其 他 值 为 0， 将 g 作为 由 模型 计算 得 到 的 输出 。 请 牢记 ，sigmoid ph BCH fi 
出 是 一 个 概率 值 。 


有 这 样 一 个 定理 : 4 p=q 时 ， 交 义 烂 取得 最 小 值 。 因 此 ， 可 利用 交叉 燃 比 较 一 个 分 
布 与 为 一 个 分 布 的 “吻合 ”情况 。 交 义 入 越 接近 于 烂 ，g 便 是 针对 p RPE. Kb kb, 


模型 的 输出 与 期 望 输出 越 接 近 ， 交 叉 业 也 会 越 小 ， 这 正 是 损失 曙 数 所 需要 的 。 
在 对 箭 最 小 化 时 ， 将 logs 蔡 换 为 log 完全 没有 任何 问题 ， 因 为 两 者 只 相差 一 个 常 系数 。 





下 面 将 该 模型 运用 到 一 些 数据 上 。 我 们 准备 使 用 来 自 https//www.kagegle.conyc/titanic/data 的 Kaggle 竞 赛 数 据 集 Titanic。 
该 模型 应 能 依据 乘客 的 年 龄 、 性 别 和 船 票 的 等 级 推断 他 或 她 是 否 能 够 地 存 下 来 。 
为 增添 一 些 趣味 性 ， 这 次 准备 从 文件 读 取 数 据 。 请 前 往 该 竞赛 对 应 的 页 面 下 载 train.csv 文 件 。 
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编写 读 取 文件 的 基本 代码 。 对 于 之 前 编写 的 框架 ， 这 是 一 个 新 的 方法 。 你 可 加 载 和 解析 它 ， 并 创建 一 个 批 次 来 读 取 排 列 在 茶 个 张 量 中 的 多 行 数据 ， 以 提升 推 源 
计算 的 效率 。 


def read csv(batch_size, file_name, record defaults): 
filename queue = 


tf.train.string_input_producer([os.path.dirname(__file__) + 
"/" + file_name]) 


reader = tf.TextLineReader(skip header lines=1) 
key, value = reader.read(filename_queue) 


# decode_csv 会 将 字符 串 ( 文本 行 ) 转换 到 具有 指定 默认 值 的 由 张 量 列 构成 的 元 组 中 
# 它 还 会 为 每 一 列 设置 数据 类 型 
decoded = tf.decode csv(value, 

record defaults=record defaults) 


# 实际 上 会 读 取 一 个 文件 ， 并 加 载 一 个 张 量 中 的 batch_size 行 

return tf.train.shuffle batch(decoded, 
batch size=batch size, 
capacity=batch size * 50, 


min_after_dequeue=batch_size) 


需要 使 用 这 个 数据 集中 的 属性 数据 (categorical data) 。 般 票 等 级 和 性 别 都 属于 字符 串 特 征 ， 它 们 的 取 值 都 来 目 一 个 预定 义 的 集合 。 为 了 在 推 斯 模型 中 使 用 这 些 
数据 ， 便 需要 将 其 转换 为 数值 型 特征 。 一 种 比较 简单 的 方法 是 为 每 个 可 能 的 取 值 分 配 一 个 数值 。 例 如 ， 用 “代表 一 等 船 票 ， 用 2 和 3 分 别 代 表 二 、 三 等 和 鹏 票 ， 但 
这 种 方式 会 为 这 些 取 值 强加 一 种 实际 并 不 存在 的 线性 关系 。 我 们 不 能 说 "一 等 票 是 一 等 标的 3 倍 ”， 正 确 的 做 法 是 将 每 个 属性 特征 扩展 为 N 维 的 布尔 型 特征 ， 每 个 可 能 
的 取 值 对 应 一 维 。 若 具备 该 属性 ， 则 相应 的 维度 上 取 值 为 1。 这 样 就 可 使 模型 独立 地 学 习 到 每 个 可 能 的 取 值 的 重要 性 。 在 本 例 中 ， 持 “一 等 票 ?的 乘客 幸存 的 概率 要 
高 于 其 他 乘客 。 











使 用 属性 数据 时 ， 通 常 都 是 先 将 其 转换 为 多 维 布 尔 型 特征 ， 每 个 可 能 的 取 值 对 应 一 维 。 这 使 得 模型 能 够 对 每 个 可 能 的 取 值 独立 加 权 。 











对 于 只 可 能 取 两 种 值 的 属性 ， 如 本 例 数 据 集 中 的 性 别 ， 用 蛙 个 变量 来 表示 已 经 足够 ,这 是 因为 可 表达 这 些 值 之 间 的 线性 关系 。 例 如 ， 寿 令 fEmale=1，male=0， 
则 male=1- 人 male， 因 此 单个 权 值 便 可 学 习 同 时 表示 两 种 状态 。 


def inputs(): 
passenger_id, survived, pclass, name, sex, age, sibsp, 
parch, ticket, fare, cabin, embarked = \ 
read_csv(100, "train.csv", [[0.0], [0.0], [0], [""], 
[""], [0.0], [0.6], [0.0], [""], [0.0], [js [°"1]) 


# 转换 属性 数据 

is first class = tf.to float(tf.equal(pclass, [1])) 

is_second class = tf.to float(tf.equal(pclass, [2])) 
is third class = tf.to float(tf.equal(pclass, [3])) 


gender = tf.to float(tf.equal(sex, ["female"])) 


# 最 终 将 所 有 特征 排列 在 一 个 矩阵 中 ， 然 后 对 该 矩阵 转 置 ， 使 其 每 行 对 应 
一 个 样本 ， 每 列 对 应 一 种 特征 
features = tf.transpose(tf.pack([is_first_class, 
is second class, is_third_class, gender, age])) 
survived = tf.reshape(survived, [100, 1]) 


return features, survived 








在 上 述 代码 中 ， 将 输入 定义 为 调用 read_csv 并 对 所 读 取 的 数据 进行 转换 。 为 了 转换 为 布尔 型 ， 我 们 使 用 tequal 方 法 检查 属性 值 与 某 些 常量 值 是 否 相等 ， 还 利用 
tfto_foat 方 法 将 布尔 值 转换 成 数值 以 进行 推断 。 然 后 ， 利 用 tfpack 高 源 竹 吨 训 本 天 储 插 侠 讲 衣 从 张 量 中 。 





最 后 ， 训练 模型 。 


def train(total_loss): 

learning_rate = 0.01 

return 
tf.train.GradientDescentOptimizer( learning _rate).minimize(total_Lloss) 


为 了 对 训练 结果 进行 评估 ， 准 备 对 训练 集中 的 一 批 数据 进行 推断 ， 并 统计 已 经 正确 预测 的 样本 总 数 。 我 们 将 这 种 方法 称 为 度量 准确 率 WY , 
def evaluate(sess, X, Y): 
predicted = tf.cast(inference(X) > 0.5, tf.float32) 
print 


sess.run(tf.reduce mean(tf.cast(tf.equal(predicted, Y), 
tf.float32))) 


由 于 模型 计算 的 是 回答 为 “Yes” 的 概率 ， 所 以 如 果 某 个 样本 对 应 的 输出 大 于 0.5， 则 将 输出 转换 为 一 个 正 的 回答 ， 然 后 利用 蕉 equal 比 较 预 测 结 果 与 实际 值 是 否 相 
。 最 后 ， 利 用 reduce_mean 统 计 所 有 正确 预测 的 样本 数 ， 并 除 以 该 批 次 中 的 样本 总 数 ， 从 而 得 到 正确 的 预测 所 占 的 百分比 。 





A 


运行 上 述 代 码 ， 将 得 到 约 80% 的 准确 率 。 考 碟 到 模型 较为 简单 ， 这 个 结果 还 是 比较 令 人 满意 的 。 





[1] 准确 率 实际 上 是 正确 预测 的 样本 总 数 占 全 部 样本 的 比例 。 一 译 者 注 
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4.5 Softmax 分 类 


借助 对 数 几 率 回 归 ， 可 对 Yes-No 型 问题 的 回答 进行 建 模 。 现 在 ， 和 希望 能 够 回答 具有 多 个 选项 的 问题 ， 如 “你 的 出 生地 是 波士顿 、 伦 敦 还 是 悉尼 ? ” 





对 于 这 样 的 问题 ， 可 使 用 softmax 函 数 ， 它 是 对 数 几 率 回 归 在 C 个 可 能 不 同 的 值 上 的 推广 。 


fQ ==—, c=0, =, C 一 1 


C= 


| 
j=0 


个 分 量 之 和 始终 为 1， 这 是 因为 softmax 的 公式 要 求 





该 函数 的 返回 值 为 含 C 个 分 量 的 概率 向 量 ， 每 个 分 量 对 应 于 一 个 输出 类 别 的 概率 。 由 于 各 分 量 为 概率 ，C 
每 个 样本 必须 属于 某 个 输出 类 别 ， 且 所 有 可 能 的 样本 均 被 履 新 。 如 果 和 名 分 量 之 和 小 于 1， 则 意味 着 存在 一 些 隐藏 的 类 别 ， 若 各 分 量 之 和 大 于 1， 则 说 明 每 个 样本 


可 能 同时 属于 多 个 类 别 。 





可 以 证 明 ， 当 类 别 总 数 为 2 时 ， 所 得 到 的 输出 概率 与 对 数 儿 率 回归 模型 的 输出 完全 相同 。 


为 实现 该 模型 ， 需 要 将 之 前 的 模型 实现 中 变量 初始 化 部 分 稍 做 修改 。 由 于 模型 需要 计算 C 个 而 非 1 个 输出 ， 所 以 需要 C 个 不 同 的 权 值 组 ， 每 个 组 对 应 一 个 可 


能 的 输出 。 因 此 ， 会 使 用 一 个 权 值 矩 阵 而 非 一 个 权 值 问 量 。 该 矩阵 的 每 行 都 与 一 个 输入 特征 对 应 ， 而 每 列 都 对 应 于 一 个 输出 类 别 。 


在 尝试 softmmax 分 类 时 ， 我 们 准备 使 用 经 典 的 高 尾 花 数据 集 Iris (下 载 链 接 https;y/archive.ics.uciedwnydatasets/Iris ) 。 该 数据 集中 包含 4 个 数据 特征 及 3 个 可 能 的 
输出 类 《〈 不 同类 型 的 意 尾 花 ) ， 因 此 权 值 矩阵 的 维 数 应 为 4x3。 


变量 初始 化 代码 如 下 所 示 : 


# 此 时 ， 权 值 构成 了 一 个 算 阵 ， 而 非 向 量 ， 每 个 “特征 权 值 列 ” 对 应 一 个 输出 类 别 


W = tf.Variable(tf.zeros([4, 3]), name="weights") 
# 偏 置 也 是 如 此 ， 每 个 偏 置 对 应 一 个 输出 美 
b = tf.Variable(tf.zeros([3], name="bias")) 


正如 所 期 望 的 那样 ，TensorFlow 提 供 了 一 个 softmax 函 数 的 内 舱 实 现 : 


def inference(X): 
return tf.nn.softmax(combine_inputs(X)) 


HAULE HRR Fe AY > BS tT A a es tint RAA AARE A eS Lo ERARE, FY SE TT eck DA FE 
情形 。 


FANIA A, XRRR N: 
loss; = 一 >》(])。 - log( v_ predicted.)) 


将 每 个 输出 类 别 在 训练 样本 上 的 损失 相 加 。 注 意 ， 对 于 训练 样本 的 期 望 类 别 ，yc 应 当 为 1， 对 其 他 情形 应 为 0， 因 此 实际 上 这 个 和 式 中 只 有 一 个 损失 值 被 计 


入 ， 它 度量 了 模型 为 真实 类 别 预测 的 概率 的 可 信 度 。 








为 计算 训练 集 上 的 总 损失 值 ， 我 们 将 每 个 训练 样本 的 损失 相 加 : 


loss 二 一 ae Ya * log( y_ predicted,,) ) 


ERI JE IE, TensorFlow Nsoftnax2e SC iii K bE SPT SEB AS: 一 个 版 本 针对 训练 集中 每 个 样本 只 对 应 单个 类 别 专门 做 了 优化 。 例 如 ， 训 练 数据 可 能 


一 个 类 别 值 或 者 是 "dog”， 或 者 是 "persom 或 “tree”。 这 个 函数 是 tmn.sparse_softmax _cross_entropy_with logits。 
def loss(X, Y): 


return 
tf.reduce_mean(tf.nn.sparse softmax_cross entropy _with_Logits(combine inputs(X, 


Y)) 
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另 一 个 版 本 允许 用 户 使 用 包含 每 个 样本 属于 每 个 类 别 的 概率 信息 的 训练 集 。 例 如 ， 可 使 用 像 “60% 被 询问 的 人 认为 这 幅 图 片 与 狗 有 关 ，25% 认 为 与 树 有 关 ， 
其 余人 认为 与 人 有 关 ? 的 训练 数据 ， 该 函数 是 外 nn.softmax cross entropy with logits。 在 一 些 真实 用 例 中 ， 可 能 需要 这 样 的 函数 ， 但 对 于 正在 考虑 的 简单 问题 ， 并 
不 需要 它 。 在 可 能 的 情况 下 ， 稀 疏 版 本 是 更 好 的 选择 ， 因 为 它 的 计算 速度 非常 快 。 注 意 ， 模 型 的 最 终 输 出 将 总 是 单个 类 别 值 ， 这 个 版 本 只 是 为 了 支持 更 灵活 的 
训练 数据 。 


下 面 定义 输入 方法 。 我 们 将 复 用 来 自 对 数 几 率 回 归 示 例 中 的 read_csv 函 数 ， 但 在 调用 时 会 使 用 数据 集中 的 默认 值 ， 它 们 都 是 数值 型 的 。 


def inputs(): 


sepal length, sepal_width, petal_length, petal width, 
label =\ 
read csv(100, "iris.data", [[0.0], [0.0], [0.0], 
[0.0], [°"J]) 


H 将 类 名 称 转换 为 从 0 开始 计 的 类 别 案 引 
label number = 
tf.to_int32(tf.argmax(tf.to_int32(tf.pack([ 
tf.equal(label, ["Iris-setosa"]), 
tf.equal(label, ["Iris-versicolor"]), 
tf.equal(label, ["Iris-virginica” ]) 
12). 9)) 


# 将 所 关心 的 所 有 特征 装 入 单个 矩阵 中 ， 然 后 对 该 矩阵 转 置 ， 使 其 每 行 对 应 一 个 样本 ， 而 每 列 对 应 一 个 
特征 
features = tf.transpose(tf.pack([sepal_length, 
sepal_width, petal length, petal _width])) 


return features, label number 





为 了 使 用 sparse softmax cross entropy with logis， 无 须 将 每 个 类 别 都 转换 成 它 自己 的 变量 ， 但 需要 将 值 转换 为 范围 是 0 一 2 的 整数 ， 因 为 总 的 类 别 数 为 3。 在 
数据 集 文件 中 ， 类 别 是 一 个 来 自 “Tris-setosa”、“Tris-versicolor” 和 和 “Iris-virginica” 的 字符 串 。 为 对 其 进行 转换 ， 可 用 共 pack 创 建 一 个 张 量 ， 并 利用 ttequa 几 文件 输入 与 每 
个 可 能 的 值 进 行 比较 。 然 后 ， 利 用 萎 aremax 找 到 那个 张 量 中 值 为 真 的 位 置 ， 从 而 有 效 地 将 各 类 别 转化 为 0 一 2 范围 的 整数 。 





对 于 训练 函数 ， 内 容 完 全 相同 。 


为 了 评估 模型 的 准确 率 ， 需 要 对 sigmoid 版 本 稍 做 修改 : 


def evaluate(sess, X, Y): 
predicted = tf.cast(tf.arg_max(inference(X), 1), 
tf.int32) 


print 
sess.run(tf.reduce_mean(tf.cast(tf.equal(predicted, Y), 
tf.float32))) 





推 师 过 程 将 计算 各 测试 样本 属于 每 个 类 别 的 概率 。 可 利用 维 argmax 函 数 来 选择 预测 的 输出 值 中 具有 最 大 概率 的 那个 类 别 。 最 后 ， 把 维 equal 与 期 望 的 类 别 进行 
比较 ， 并 像 之 前 sigmoid 的 例子 中 那样 运用 treduce_mean 计 算 准 确 率 。 


运行 上 述 代 码 ， 可 以 获得 约 95% 的 准确 率 。 
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4.6 ”多 层 神 经 网 络 
到 目前 为 止 ， 我 们 已 经 使 用 过 了 比较 简单 的 神经 网 络 ， 但 并 未 特别 声明 。 线 性 回归 模型 和 对 数 几 率 回 归 模 型 本 质 上 都 是 单个 神经 元 ， 它 具有 以 下 功能 : 
计算 输入 特征 的 加 权 和 。 可 将 偏 置 视 为 每 个 样本 中 输入 特征 为 1 的 权重 ， 称 之 为 计算 特征 的 线性 组 合 。 


-然后 运用 一 个 激活 函数 或 传递 函数 ) 并 计算 输出 。 对 于 线性 回归 的 例子 ， 传 递 函 数 为 恒等式 〈 即 保持 值 不 变 ) ， 而 对 数 几率 回归 将 sigmoid 函 数 作 为 传递 函 
数 。 





下 图 表示 了 每 个 神经 元 的 输入 、 处 理 和 输出 。 








x) 
x, 
É H 
] 
输入 权重 求 和 传递 函数 
对 于 softmax 分 类 ， 使 用 了 一 个 含 C 个 神经 元 的 网 络 ， 其 中 每 个 神经 元 对 应 一 个 可 能 的 输出 类 别 。 
x 输出 1 
Xa 
输出 2 
X3 
1 
输出 3 
为 求解 一 些 更 复杂 的 问题 ， 如 手写 数字 识别 ， 或 识别 图 像 中 的 猫 和 狗 ， 我 们 需要 一 个 更 复杂 的 模型 。 
首先 从 一 个 简单 的 例子 开始 ， 假 设 希 望 构建 一 个 能 够 学 习 如 何 拟 合 “' 噶 或 ”(XOR) 运算 的 网 络 。 
#41 XOR 运 算 真 值 表 
. —— . 
. a : 
: — , 
3 -—— . 


当 两 个 输入 中 有 一 个 为 1 但 不 全 为 1 时 ， 该 运算 结果 应 为 1。 


这 个 问题 看 似 比 之 前 尝试 过 的 都 要 简单 ， 但 到 目前 为 止 所 接触 过 的 模型 都 无 法 解决 它 。 原 因 在 于 sigmoid 类 型 的 神经 元 要 求 数据 线性 可 分 ， 这 意味 着 对 于 2D 数 
据 ， 一 定 存在 一 条 直线 〈 对 于 高 维 数据 则 为 超 平面 ) ， 它 可 将 分 别 属 于 两 个 类 别 的 样本 分 隅 在 直线 两 侧 ， 如 下 图 所 示 。 
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在 该 图 中 ， 圆 点 表示 样本 ， 且 不 同类 别 的 样本 以 不 同 的 颜色 标识 。 只 要 能 够 在 图 中 找到 将 黑色 点 和 灰色 点 完全 分 离 的 黄色 直线 ，sigmoid 神 经 元 在 对 应 的 数据 集 
上 就 会 有 民 好 的 表现 。 





PRA SEBO TT eR A BAe 


0 
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在 上 图 中 ， 无 法 找到 一 条 直线 能 够 完美 地 将 黑色 点 《对 应 布尔 值 1) 和 灰色 点 (对 应 布尔 值 0〉 完 美 区 分 ， 这 是 因为 “ 寞 或 ”函数 的 输出 不 是 线性 可 分 的 。 


这 个 问题 在 20 世 纪 70 年 代 一 度 使 神经 网 络 研究 失去 重要 性 长 达 近 10 年 之 入 ， 后 来 的 研究 人 员 为 了 继续 使 用 神经 网 络 解决 这 种 不 具备 线性 可 分 性 的 问题 ， 采 取 在 
神经 网 络 的 输入 端 和 输出 端 之 间 插 入 更 多 的 神经 元 ， 如 下 图 所 示 。 


XI 
输出 
x, 
输入 层 隐 含 层 输出 层 








可 以 看 到 ， 在 输入 层 和 输出 层 之 间 增 加 了 一 个 隐 仿 层 〈hidden layer) ， 可 这 样 来 认识 这 个 新 层 : 它 使 得 网 络 可 以 对 输入 数据 提出 更 多 的 问题 ， 隐 含 层 中 的 每 个 
神经 元 对 应 一 个 问题 ， 并 依据 这 些 问 题 的 回答 最 终 决 定 输出 的 结果 。 


添加 隐 含 层 的 作用 相当 于 在 数据 分 布 图 中 允许 神 经 网 络 绘制 一 条 以 上 的 分 隔 线 。 
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从 上 图 可 以 看 到 ， 每 条 分 隔 线 都 为 癌 输 入 数据 提出 的 第 一 批 问题 针对 平面 进行 了 划分 。 然 后 ， 再 将 所 有 相等 的 输出 划分 到 单个 区 域 中 。 
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想必 读者 现在 已 可 以 大 致 猜测 出 “深度 学 习 ” 中 的 “深度 ”的 含义 。 通 过 添加 更 多 的 隐 舍 层 ， 神 经 网 络 的 层 数 变 得 更 ' 深 ”。 这 些 隐 舍 层 之 间 可 采用 不 同类 型 的 连接 ， 
甚至 在 每 层 中 使 用 不 同 的 激活 函数 。 





本 书后 续 章 节 还 将 介绍 在 不 同 应 用 场景 中 使 用 的 不 同类 型 的 深度 神经 网 络 。 
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47 梯度 下 降 法 与 误差 反 向 传播 算法 
本 节 将 对 所 使 用 的 学 习 算 法 进行 解释 ， 并 以 此 结束 对 机 器 学 习 基 础 的 介绍 。 


梯度 下 降 法 是 一 种 致力 于 找到 函数 极 值 点 的 算法 。 前 面 介绍 过 ， 所 谓 “ 学 习 ' 痢 是 改进 模型 参数 ， 以 便 通 过 大 量 训练 步骤 将 损失 最 小 化 。 有 了 这 个 概念 ， 将 
梯度 下 降 法 应 用 于 寻找 损失 函数 的 极 值 点 便 构 成 了 依据 输入 数据 的 模型 学 习 。 





下 面 给 出 梯度 的 定义 ， 以 防 读 者 对 此 缺乏 了 解 。 梯 度 是 一 种 数学 运算 ， 通 常 以 符号 V :表示 。 它 与 导数 类 似 ， 但 也 可 应 用 于 输入 为 一 个 向 量 、 输 出 为 一 个 
标量 的 函数 ， 损 失 函 数 也 属于 这 种 类 型 。 





梯度 的 输出 是 一 个 由 吞 干 俩 导数 构成 的 风量， 它 的 每 个 分 量 对 应 于 函数 对 输入 问 量 的 相应 分 量 的 俩 导 : 





T 


0 do oo, 0 
OW, OW ` Wy 








如 果 函 数 接收 的 输入 多 于 一 个 变量 ， 则 应 考虑 偏 导 数 。 在 求 偏 导 时 ， 可 将 当前 变量 以 外 的 所 有 变量 视 为 常数 ， 然 后 运用 单 变 量 求 导 法 则 。 





偏 导 数 所 度量 的 是 函数 输出 相对 于 茶 个 特定 输入 变量 的 变化 紊 ， 即 当 输 入 变量 的 值 增长 时 ， 输 出 值 的 增长 。 








在 继续 下 面 的 内 容 之 前 ， 有 一 点 需要 强调 。 当 提 及 损失 函数 的 输入 变量 时 ， 指 的 是 模型 的 权 值 ， 而 非 实际 数据 集 的 输入 特征 。 一 旦 给 定数 据 集 和 所 要 使 用 
的 特征 类 型 ， 这 些 输入 特征 便 固 定 下 来 ， 无 法 进行 优化 。 我 们 所 计算 的 偶 导 数 是 相对 于 推断 模型 中 的 每 个 权 值 而 言 的 。 





之 所 以 关心 梯度 ， 是 因为 它 的 输出 向 量 表明 了 在 每 个 位 置 损失 函数 增长 最 快 的 方 铝 ， 可 将 它 视 为 表示 了 在 函数 的 每 个 位 置 向 哪个 方向 移动 函数 值 可 以 增 
Ke 


假设 上 述 曲线 对 应 于 损失 函数 。 点 表示 权 值 的 当前 值 ， 即 现在 所 在 的 位 置 。 梯 度 用 箭头 表示 ， 表 明 为 了 增加 损失 ， 和 需要 向 右 移动 。 此 外 ， 箭 头 的 长 度 概念 
化 地 表示 了 如 果 在 对 应 的 方向 移动 ， 函 数值 能 够 增长 多 少 。 





如 宁 回 着 梯度 的 反方 向 移动 ， 则 损失 函数 的 值 会 相应 减 小 。 


在 上 述 图 表 中 ， 如 果 问 梯度 的 反方 向 移动 ， 则 意味 着 将 问 着 损失 函数 值 减少 的 方 回 移动 。 
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如 果 沿 该 方 同 移动 ， 并 再 次 计算 梯度 值 ， 并 重复 上 述 过 程 ， 直 人 至 梯度 的 模 为 0， 将 到 达 损 失 函 数 的 极 小 值 点 。 这 正 是 我 们 的 目标 ， 该 过 程 的 图 形 化 表示 可 
参考 下 图 。 





就 是 这 样 。 可 将 梯度 下 降 算 法 定义 为 : 


Welghtsstep ， —weightsstep, 一 1 Vloss(Weightsse ) 





请 注意 用 对 梯度 进行 缩放 。 该 参数 被 称 为 学 习 速 率 〈leamingrate) 。 这 个 参数 是 必须 要 使 用 的 ， 因 为 梯度 癌 量 的 长 度 实 际 上 古 一 个 在 “损失 函数 单元 ”中 而 
非 " 权 值 单元 ?中 度量 的 量 ， 因 此 需要 对 梯度 进行 缩放 ， 使 其 能 够 与 权 值 相 加 。 

















学 习 速 率 并 不 是 模型 需要 推断 的 值 ， 它 是 一 种 超 参 数 (hyperparameter) ， 或 对 模型 的 一 种 手工 可 配置 的 设置 ， 需 要 为 它 指定 正确 的 值 。 如 果 学 习 速 率 太 
小 ， 则 找到 损失 沙 数 极 小 值 点 时 可 能 需要 许多 轮 迭 代 ; 如 果 太 大 ， 则 算法 可 能 会 ' 跳 过 ? 航 小 值 点 并 且 因 周 期 性 的 "号 跃 ? 而 永远 无 法 找到 极 小 值 点 ， 这 种 现象 被 
称 为 “ 超 调 ”(overshooting) ， 在 损失 函数 图 形 中 ， 和 它 大 致 如 下 所 示 。 

















在 具体 实践 中 ， 无 法 绘制 损失 函数 ， 因 为 通常 它 都 有 非常 多 的 变量 ， 因 此 要 想 了 解 是 否 发 生 “ 超 调 ”” 只 能 查看 损失 函数 值 随时 间 的 变化 曲线 ， 可 利用 
tscalar summary 函数 在 TensorBoard 中 得 到 该 曲线 。 








下 图 展示 了 行为 民 好 的 损失 函数 随时 间 下 降 的 过 程 ， 它 表明 学 习 速率 的 选取 是 合适 的 。 
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上 图 中 的 瘟 色 曲线 是 由 TensorBoard 绘 制 的 ， 而 红色 曲线 表示 损失 函数 的 下 降 趋 势 。 





下 图 展示 了 当 出 现 ' 超 调 " 时 ， 损 失 函 数 随 时 间 的 变化 。 





ba 0.000 50.00 100.0 150.0 200.0 260.0 300.0 350.0 400.0 450.0 500.0 
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学 习 。 
除了 学 习 速 紊 ， 还 有 一 些 其 他 问题 也 会 影响 桂 度 下 降 算 法 的 性 能 。 例 如 ， 损 失 函 数 的 局 部 极 值 点 。 我 们 再 次 回 到 之 前 的 损失 函数 曲线 示例 ， 如 果 权 值 的 初 
(A SEU IK PR BUG UA AR”, 则 该 算法 的 工作 过 程 如 下 。 





该 算法 将 找到 谷 确 ， 并 终止 迭代 ， 因 为 它 认 为 自己 找到 了 一 个 最 佳 位 置 。 在 所 有 的 极 值 点 ， 梯 度 的 幅度 都 为 0。 梯 度 下 降 法 无 法 区 分 达 代 终止 时 到 底 古 到 
达 了 全 局 最 小 点 还 是 局 部 极 小 点 ， 后 者 往往 只 在 一 个 很 小 的 邻 域内 为 最 优 。 








可 通过 将 权 值 随机 初始 化 来 改善 上 述 问 题 。 请 记 住 ， 权 值 的 初 值 是 手工 指定 的 。 通 过 使 用 随机 值 ， 可 以 增加 从 靠近 全 局 最 优点 附近 开始 下 降 的 机 会 。 











在 深度 神经 网 络 的 语 境 (后 续 章 节 将 介绍 ) 中 ， 局 部 极 值 点 极为 常见 。 一 种 简单 的 解释 方法 是 考虑 相同 的 输入 如 何 通 过 多 条 不 同 路 径 到 达 输 出 ， 从 而 得 到 
相同 的 结果 。 垃 运 的 是 ， 有 一 些 文 献 已 经 表明 ， 就 损失 函数 而 言 ， 所 有 这 些 极 值 点 都 接近 等 价 ， 与 全 局 最 小 点 相 比 ， 它 们 的 劣势 并 不 明显 。 
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到 目前 为 止 ， 尚 未 显 式 计算 过 任何 导数 ， 因 为 这 是 不 必要 的 。TensorFlow 提 供 了 从 gradients 方 法 ， 可 通过 符号 计算 推导 出 指定 的 流 图 步 缀 的 梯度 ， 并 将 其 以 
张 量 形式 输出 。 我 们 甚至 不 需要 手工 调用 这 个 梯度 计算 函数 ， 因 为 TensorFlow 己 经 实现 了 大 量 优化 方法 ， 其 中 就 包括 梯度 下 降 法 。 这 就 是 为 什么 在 介绍 梯度 下 
降 法 原理 时 只 介绍 高 层 公式 ， 而 不 去 深入 探 宛 该 算法 的 具体 实现 和 数学 原理 。 











下 面 介绍 反问 传播 算法 ， 它 是 一 种 高 效 计算 数据 流 图 中 梯度 的 技术 。 


以 一 个 单 输入 、 单 输出 的 极 简 网 络 为 例 ， 该 网 络 拥有 两 个 隐 含 层 ， 每 个 隐 含 层 都 只 仿 单 个 神经 元 。 隐 合 层 和 输出 层 神经 元 的 激活 函数 都 采用 了 sigmoid， 而 
损失 将 通过 交叉 糯 来 计算 。 这 样 的 网 络 结构 如 下 所 示 。 


N f 
1 H H n 
L L, L 


令 Li 为 第 一 个 隐 售 层 的 输出 ，L; NBA aa A, Ls 为 该 网 络 的 最 终 输 出 : 

Li 二 sigmoid(w! * x) 

L =sigmoid(w: ° Lo) 

L,=sigmoid(w3 * Lə) 
最 后 ， 整 个 网 络 的 损失 为 : 

kiir entropy (L3 * Vexpectea) 
YT RG BB EP BRE — 2, ETT TA RRX A 26 = EY i BT 
tH AEST WR, 38 A ES N : 


dloss 
Ow 3 


E 
为 简化 上 述 表 达 式 ， 可 定义 : 


loss'=cross_entropy’(L3, yexpected) 


=cross_entropy(L3 * yexpected) © sigmoid'(w3 * L2) + L2 


L; =sigmoid'(w3, L2) 
M E Ei EN : 


dloss 


= jogg «15 Sa 





OW 
下 面 计算 损失 函数 相对 于 第 二 个 隐 食 层 权 值 we 的 俩 寻 : 
L5=sigmoid'(w2 + Lı) 


Jloss 
: =loss' «da * Le * Li 





dW 
ia tt ia eK BORA MT F wi AY i : 
Li=sigmoid'(w, * x) 
dloss 
Ow | 





一 ggs ie +L +* Tx 











应 当 注 意 到 其 中 存在 某 种 模式 一 一 每 一 层 的 导数 部 是 后 一 层 的 导数 与 前 一 层 输出 之 积 ， 这 正 古 链 式 法 则 的 奇妙 之 处 ， 误 差 反 癌 传 播 算法 利用 的 正 是 这 一 特 


Wo 


前 饥 时 ， 从 输入 开始 ， 逐 一 计算 每 个 隐 含 层 的 输出 ， 直 到 输出 层 。 然 后 开始 计算 导数 ， 并 从 输出 层 经 各 隐 合 层 逐 一 反 同 传播 。 为 了 减少 计算 量 ， 还 需 对 所 
有 已 完成 计算 的 元 素 进 行 复 用 。 这 便 是 反 癌 传播 算法 名 称 的 由 来 。 




















请 注意 ， 并 未 使 用 sigmoid 或 交叉 炉 导数 的 定义 。 本 所 得 到 的 结果 大 致 都 是 相同 的 。 
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这 是 一 个 非常 简单 的 示例 ， 但 如 果 茶 个 网 络 中 需要 计算 损失 相对 上 王 个 权 值 的 导数 ， 利 用 该 算法 将 显著 降低 训练 时 间 的 数量 级 。 





最 后 需要 指出 ，TensorFlow 中 包含 了 少量 不 同 的 优化 算法 ， 它 们 都 是 基于 计算 梯度 的 梯度 下 降 法 。 到 底 哪 一 种 算法 更 有 效 ， 具 体 取决 于 输入 数据 的 形状 ， 
以 及 所 要 求解 的 问题 的 特点 。 





后 续 章 节 将 介绍 在 构建 更 为 复杂 的 模型 时 ，Sigmoid 隐 含 层 、softmax 答 出 层 以 及 带 有 反 向 传播 的 梯度 下 降 法 都 是 最 为 基础 的 构件 。 
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目标 识别 与 分 类 


循环 神经 网 络 与 日 然 语言 处 理 


用 TensorFlow 实 现 更 高 级 的 深度 模型 


wwaibbt.com TAAWOAA 





第 $ 章 ”目标 识别 与 分 类 


类 功能 的 模型 时 ， 将 章 循 那些 
实践 原则 ， 同 时 也 需要 对 前 4 章 所 涵盖 的 基础 知识 进行 拓展 ， 介 绍 一 些 术 语 、 技 术 和 计算 机 视 沉 的 基础 知识 。 由 于 在 各 项 挑战 中 


到 这 里 ， 想 必 读 者 对 TensorFlow 及 其 最 佳 实践 已 有 了 了 一些 基 本 了 解 。 在 构建 具备 目标 识别 与 分 
觉 
的 优异 表现 ， 本 章 所 介绍 的 那些 运用 于 模型 训练 中 的 技术 已 被 广泛 采用 。 





ImageNet， 这 个 包 舍 疼 像 标注 信息 的 数据 库 见 证 了 近年 来 计算 机 视觉 和 深度 学 习 的 日 苞 流 行 。ImageNet 网 站 每 年 都 会 举办 一 
场 大 规模 视觉 识别 挑 成 赛 〈 英 文 缩写 为 ILSVRC) ， 要 求 参 与 者 基于 ImageNet 所 提供 的 数据 库 构 建 能 够 完成 目标 的 目 动 检测 和 分 
类 任务 的 系统 。 在 2012 年 ， 有 一 个 名 为 SuperVision 的 参赛 团队 提交 了 一 个 富有 创造 性 的 神经 网 络 架 构 的 解决 方案。 在 以 往 的 











ILSVRC 提 交 结 果 中 并 不 乏 具 备 创新 性 的 解决 方案 ， 但 SuperVision 在 图 像 分 类 任务 中 表现 出 的 空前 准确 性 使 其 异常 出 众 。 
SuperVision 为 计算 机 视觉 的 准确 紊 建立 了 全 新 的 标准 ， 并 油 友 了 人 们 对 一 种 名 为 苍 积 神经 网 络 的 深度 学 习 技术 的 极 大 兴趣 。 


人 们 给 予 卷 积 神经 网 络 (CNN) 的 关注 一 直 在 持续 得 到 加 强 。 这 类 网 络 结构 主要 用 于 计算 机 视觉 相关 任务 ， 但 处 理 对 象 并 
不 局 限于 图 像 。CNN 可 用 于 能 够 表示 为 张 量 〈 各 个 分 量 与 其 相关 的 分 量 有 序 排 列 在 一 个 多 维 网 格 中 ) 的 任意 类 型 的 数据 。 微 软 
研究 院 于 2014 年 公开 了 一 篇 利用 CNN 进 行 语音 识别 的 文章 ， 其 中 输入 张 量 为 一 个 按 录 音 时 间 顺 序 排 列 的 声音 频率 的 单行 网 格 。 
对 于 图 像 ， 张 量 中 的 分 量 为 依据 图 像 的 宽 和 局 的 次 序 排列 在 一 个 网 格 中 的 像 妹 。 














本 音 将 重点 介绍 如 何在 TensorFlow 中 利用 CNN 处 理 图 像 。 目 标 是 利用 TensorFlow 基 于 ImageNet 数 据 库 的 一 个 子 集 构建 一 个 用 
于 图 像 分 类 的 CNN 模 型 。 训 练 CNN 模 型 需要 使 用 TensorFlow 处 理 图 像 ， 并 理解 卷 积 神经 网 络 的 使 用 方法 。 本 章 的 绝 大 部 分 篇 幅 都 
将 结合 TensorFlow 介 绍 计算 机 视觉 中 的 重要 概念 。 


本 章 中 用 于 训练 CNN 模 型 的 数据 集 Stanford 担 Dogs Dataset 是 ImageNet 的 一 个 子 集 。 从 其 名 称 可 以 看 出 ， 该 数据 集中 包含 了 不 
同 品种 的 狗 的 图 像 以 及 图 像 中 所 出 现 的 狗 的 品种 标签 。 所 构建 的 模型 的 目标 是 当 给 定 一 幅 图 像 时 ， 它 能 够 精确 地 预测 其 中 包含 的 
狗 的 品种 。 
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标签 为 “Siberian Husky” 的 来 日 Stanford’s Dog Dataset 的 示例 图 像 


当 将 上 图 中 的 某 一 幅 送 入 模型 时 ， 模 型 的 输出 应 为 标签 “Siberian Husky"”。 仅 利用 这 些 示例 图 像 无 法 公正 地 对 该 模型 的 准确 率 
进行 评价 ， 因 为 它们 都 来 自 训 练 集 。 为 找到 一 个 能 够 度量 模型 准确 率 的 公正 指标 ， 需 要 使 用 大 量 不 曾 在 训练 集中 出 现 的 图 像 ， 并 
用 它们 创建 一 个 独立 的 测试 集 。 





这 里 之 所 以 要 强调 图 像 的 公正 性 ， 是 因为 它 是 将 数据 集 划 分 为 独立 的 测试 集 、 训 练 集 和 验证 集 的 重要 考虑 因素 。 在 处 理 输入 
时 ， 必 须要 做 的 一 件 事 是 用 数据 中 的 大 部 分 来 训练 一 个 网 络 。 这 种 划分 使 得 对 模型 进行 旱 测 成 为 可 能 。 如 果 用 参与 过 训练 的 图 像 
对 模型 进行 测试 ， 则 很 可 能 会 得 到 一 个 与 训练 图 像 过 分 精确 匹配 的 模型 ， 而 使 其 无 法 对 新 的 输入 产生 令 人 满意 的 预测 结果 。 测 试 


集 的 用 途 是 了 解 模型 对 不 兽 出 现在 训练 集中 的 数据 表现 如 何 。 随 着 训练 时 间 的 延长 和 迭 代 次 数 的 增加 ， 虽 然 为 提升 准确 率 所 做 的 
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调整 有 可 能 导致 这 样 的 后 果 : 模型 在 测试 集 上 的 表现 越 来 越 好 ， 但 面 对 真 实数 据 时 性 能 却 较 差 。 一 种 比较 好 的 方式 是 利用 一 个 交 
又 验 证 集 检查 最 终 的 模型 ， 以 对 模型 的 准确 率 做 出 更 为 客观 的 信 计 。 对 于 图 像 数 据 ， 最 好 是 在 进行 预 处 理 〈( 如 对 比 度 调整 或 裁 
BY) 时 对 原始 数据 集 进行 划分 ， 并 保证 对 各 个 划分 应 用 完全 相同 的 输入 流水 线 。 
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从 技术 角度 看 ， 卷 积 神经 网 络 是 一 种 至 少 包含 一 个 层 〈tfnmn.conv2d) WAAN, AAR ERMA A EGRA GR, MERZER 
输出 。 可 用 一 种 比较 简明 的 定义 描述 卷 积 ， 卷 积 的 目的 是 将 卷 积 核 〈 滤 淫 器 ) 应 用 到 茶 个 张 量 的 所 有 点 上 ， 并 通过 将 卷 积 核 在 输入 张 量 上 请 动 而 生成 丝 过 滤波 
处 理 的 张 量 。 


图 像 处 理 中 的 边缘 检测 便 是 滤波 输出 的 一 个 典型 例子 。 一 个 特殊 的 卷 积 核 被 应 用 到 岁 像 中 的 每 个 像素 ， 而 输出 为 一 个 刻画 了 所 有 边缘 的 新 疼 像 。 在 这 种 情 
形 下 ， 输 入 张 量 是 一 幅 图 像 ， 而 张 量 中 的 每 个 点 都 对 应 于 一 个 像素 所 包含 的 红色 值 、 绿 色 值 和 蓝 色 值 。 卷 积 核 会 般 历 图 像 中 的 每 个 像素 ， 任 何 位 于 边缘 的 像素 
对 应 的 卷 积 输出 值 都 会 增 大 。 











一 个 经 过 简化 的 卷 积 层 〈 其 输入 为 一 幅 图 像 ， 而 输出 为 图 像 中 的 边缘 ) Ul! 


如 果 暂 时 对 卷 积 运算 如 何 将 输入 整合 为 经 过 滤波 处 理 的 输出 或 卷 积 核 是 什么 尚 不 理解 ， 请 不 必 担 心 ， 本 章 稍 后 会 介绍 如 何 将 它们 付 诸 实 践 。 从 宏观 角度 理 
解 何 为 CNN 及 其 从 生物 学 中 获得 的 灵感 是 其 技术 实现 的 基础 。 














在 1968 年 ， 一 篇 公开 发 表 的 学 术 论 文 详细 介绍 了 猴子 纹 状 皮层 (这 部 分 大 脑 负责 处 理 视 觉 输 入 〉 的 细胞 布局 。 这 篇 文章 讨论 了 沿 垂直 方向 延伸 的 细胞 组 是 
如 何 整合 而 与 视觉 特性 匹配 的 。 对 灵 长 类 大 脑 的 研究 看 似 与 机 器 学 习 任 务 无 天 ， 但 实际 上 对 使 用 CNN 的 深度 学 习 发 展 起 到 了 非常 重要 的 作用 。 











CNN 遵 循 了 一 个 简化 的 信息 匹配 过 程 ， 这 非常 类 似 于 在 猴子 纹 状 皮层 的 细胞 布局 中 发 现 的 结构 。 当 信和 号 经 过 猴子 的 纹 状 皮层 时 ， 如 果 得 到 茶 种 视觉 模式 的 
刺激 ， 某 些 层 便 会 释放 信和 号。 例如， 一 个 细胞 层 会 在 当 水 平 线 经 过 它 时 被 激活 (增加 输出 信号 的 幅 值 )。CNN 也 会 呈现 出 相似 的 行为 ， 即 某 些 神经 元 构成 的 簇 
会 依据 从 训练 中 学 习 到 的 模式 而 激活 。 例 如 ， 经 过 训练 ， 当 水 平 线 经 过 一 个 CNN 的 某 一 层 时 ， 该 层 会 被 激活 。 














匹配 水 平 线 的 神经 网 络 是 一 种 有 用 的 架构 ， 但 CNN 更 进一步 ， 它 通过 对 多 种 简单 模式 分 层 布 局 实现 复杂 模式 的 匹配 。 在 CNN 的 语 境 中 ， 这 些 模式 补 称 为 尖 
波 器 或 卷 积 核 ， 而 训练 的 目标 是 调节 这 些 卷 积 核 的 权 值 ， 直 到 它们 能 够 与 训练 数据 精确 匹配 。 要 训练 这 些 滤波 器 ， 需 要 将 多 个 不 同 的 层级 联 ， 并 利用 梯度 下 降 
法 及 其 变 体 调节 网 络 权 值 。 











简单 的 CNN 架 构 通常 包含 卷 积 层 〈ttnn.conv2d) 、 非 线性 变换 层 (tfnn.reluy) 、 池 化 层 〈ttnnmax pool) 及 全 连接 层 〈ttnnmatmub 。 如 果 没 有 这 些 层 ， 模 型 
便 很 难 与 复杂 的 模式 匹配 ， 因 为 网 络 将 被 填充 过 多 的 信息 。 一 个 设计 良好 的 CNN 架 构 会 突出 那些 重要 的 信息 ， 而 将 噪声 忽略 。 本 章 稍 后 的 内 容 将 详细 介绍 这 些 
层 如 何 协 同 工 作 。 
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这 个 架构 的 图 像 输 入 遵循 一 种 复杂 的 格式 ， 以 文 持 图 像 的 批量 加 载 。 批 量 加 载 图 像 使 得 可 同时 对 多 幅 图 像 进行 处 理 ， 但 也 相应 地 要 求 使 用 更 为 复杂 的 数据 
结构 。 所 使 用 的 数据 结构 中 包含 了 与 一 批 图 像 进行 卷 积 运算 所 需 的 全 部 信息 。TensorFlow 的 输入 流水 线 〈 用 于 读 取 和 解码 文件 ) 拥有 一 种 为 使 用 一 个 批 数 据 中 
的 多 幅 图 像 而 设计 的 专门 格式 ， 它 包括 了 任意 一 幅 图 像 所 需 的 信息 (imge batch size, image height, image width, image channels) 。 利 用 下 列 示例 代码 ， 便 有 
可 能 在 TensorFlow 中 使 用 图 像 时 检查 样 例 输入 的 结构 。 


image batch = tf.constant([ 
[ #4 1RR 
[L0, 255, 0]. [0, 255, 0], [0, 255, O]], 
[[O, 255, O], [0, 255, OJ], [0. 255, OJ] 


] ， 
[ #32608 
[[O, 0, 255], [0, 0, 255], [0, 0, 255]], 
[[@, 0, 255], [0, 0, 255]. [0, 8, 255]] 
] 


}) 
image_batch.get_shape() 


运行 上 述 代 人 后， 可 得 到 如 下 输出 : 


TensorShape([Dimension(2), Dimension(2), Dimension(3), 
Dimension(3)]) 





注意 : 上 述 示例 代码 及 本 章 的 后 续 示 例 并 未 包含 运行 TensorFlow 代 码 所 需 的 通用 启动 过 程 ， 包 括 导 入 tensorflow 通 常 使 用 缩写 t 、 创 建 TensorFlow 会 话 对 
象 sess、 初 始 化 所 有 的 变量 和 启动 线程 执行 器 。 如 果 上 述 示例 代码 在 运行 时 未 执行 上 述 步骤 ， 将 会 出 现 一 些 变 量 未 定义 的 错误 。 


这 段 示 例 代码 创建 了 一 个 包含 两 幅 图 像 的 图 像 批 数据 。 每 幅 图 像 的 高 为 2 个 像素 ， 宽 为 3 个 像素 ， 且 颜色 空间 为 RGB。 执 行 后 的 输出 的 第 1 组 维度 
Dimension (1) 表明 了 图 像 数 量 ， 第 2 组 维度 Dimension (2) 对 应 图 像 的 高 度 ， 第 3 组 维度 Dimension (3) 表明 了 图 像 的 宽度 ， 而 颜色 通道 数量 对 应 于 最 后 一 组 维度 
Dimension (3) 。 








有 一 点 值得 注意 ， 每 个 像素 的 索引 都 会 映射 到 图 像 的 宽 和 高 这 两 个 维度 上 。 知 要 获取 第 1 幅 图 像 的 第 1 个 像素 ， 需 要 用 下 列 方式 访问 每 一 个 维度 。 





sess.run(image_batch)[0][0][0] 
该 语句 执行 后 ， 可 得 到 输出 : 
array([ 0, 255, 0], dtype=int32) 


变量 image_batch 并 不 会 从 磁盘 直接 加 载 图 像 ， 而 是 将 自身 当成 作为 输入 流水 线 的 一 部 分 而 被 加 载 的 图 像 。 使 用 输入 流水 线 从 磁盘 加 载 的 图 像 拥 有 相同 的 格 
式 和 行为 。 一 种 第 见 的 做 法 是 创建 一 些 与 上 述 image_batch 实 例 相 似 的 假 数据 对 CNN 的 输入 和 输出 进行 测试 。 这 种 简化 的 输入 会 使 诊断 和 调试 一 些 简单 问题 更 加 
容易 。 简 化 调试 过 程 非常 重要 ， 因 为 CNN 染 构 极 为 复杂 ， 训 练 经 常 需 要 耗费 数 日 。 
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CNN 架 构 的 第 一 个 复杂 性 体现 在 卷 积 层 的 工作 机 理 上 。 任 何 图 像 被 加 载 和 处 理 后 ， 卷 积 层 通常 是 网 络 的 第 一 层 。 这 第 一 个 卷 积 层 非常 有 用 ， 因 为 它 可 简化 
网 络 的 其 余部 分 ， 并 用 于 调试 。 下 一 节 将 重点 介绍 卷 积 层 的 工作 机 理 ， 以 及 如 何在 TensorFlow 中 使 用 它们 。 








[1] 该 图 中 的 gQ 需 要 修改 为 [-1-2-1;000;1,2,1]， 按 照 图 中 给 出 的 模板 检测 到 的 边缘 是 不 具有 方 同性 的 。 一 一 译 者 注 
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从 名 称 可 以 看 出 ， 卷 积 运算 是 卷 积 神经 网 络 的 重要 组 成 。CNN 与 各 种 模式 精确 匹配 的 能 力 可 归功 于 卷 积 运算 的 使 用 。 这 些 运算 要 求 复 杂 的 输入 ， 这 一 点 已 在 
上 一 节 说 明 过 。 本 节 将 对 卷 积 运算 及 其 参数 进行 实验 。 











卷 积 运算 对 两 个 输入 张 量 〈 输 入 和 卷 积 核 ) 进行 苍 积 ， 并 输出 一 个 代表 来 自 每 个 输入 的 信息 的 张 量 


5.2.1 输入 和 卷 积 核 





通常 ，TensorFlow 中 的 卷 积 运算 是 通过 tnn.conv2d 完 成 的 。 对 于 一 些 特定 用 例 ，TensorFlow 还 提供 了 其 他 卷 积 运算 。 在 开始 实验 卷 积 运算 时 ， 推 荐 使 用 
丰 nn.conv2d。 例 如 ， 可 试验 计算 两 个 张 量 的 郑 积 ， 并 查看 结果 。 





input_batch = tf.constant([ 
[ 基 第 一 个 输入 


[[0.0], [1.0]], 
[[2.0], [3.0]] 
] ， 
[ # 第 2 个 输入 
[[2.0], [4.0]], 
[[6.0], [8.0]] 


| 
]) 
kernel = tf.constant([ 
[ 
[[1.0, 2.0]] 
] 


]) 


上 述 代码 将 创建 两 个 张 量 ， 其 中 input_bateh 拥 有 与 上 一 市 中 的 jimage_batch 相 似 的 形状 ， 它 是 与 kernel 进 行 苍 积 的 第 一 个 张 量 。 卷 积 核 (kernel) 是 一 则 重要 术 
语 ， 也 称 为 权 值 、 滤 波 器 、 卷 积 矩 阵 或 模板 。 由 于 本 任务 与 计算 机 视觉 相关 ， 使 用 术语 “ 管 积 核 " 曾 显得 十 分 有 用 ， 因 为 这 意味 着 将 它 视 为 图 像 卷 积 核 。 当 用 于 描 
述 TensorFlow 中 的 相应 功能 时 ， 使 用 哪 种 说 法 并 不 存在 实际 差别 。 在 TensorFlow 中 ， 这 个 参数 被 命名 为 分 er， 相 应 的 权 值 可 从 训练 中 习 得 。 苍 积 核 〈ftlter 参 数 ) 中 不 
同 权 值 的 数量 决定 了 需要 学 习 的 卷 积 核 的 数量 。 


上 述 示例 代码 中 包含 了 一 个 卷 积 核 〈 变 量 kerne 的 第 1 维 ) 。 该 卷 积 核 的 作用 是 返回 一 个 其 第 1 个 通道 等 于 原始 输入 值 ， 第 2 个 通道 等 于 原始 输入 值 两 倍 的 张 
量 。 在 本 例 中 ， 通 道 用 于 描述 一 个 秩 1 张 量 ( 向 量 〉 的 元 素 。 通 道 这 个 术语 来 自 计 算 机 视觉 领域 ,用 于 描述 输出 同 量 。 例 如 ， 一 幅 RGB 图 像 拥 有 3 个 代表 了 秩 1 张 量 
[red，green，blue] 的 通道 。 就 目前 而 言 ， 请 忽略 strides 参 数 和 padding 参 数 〈 稍 后 将 对 其 进行 介绍 ， ， 并 重点 关注 卷 积 运算 〈fttnnconv2d) 的 输出 。 
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conv2d = tf.nn.conv2d(input_batch, kernel, strides=[1, 1, 1, 
1], padding='SAME') 


sess.run(conv2d) 
执行 上 述 代 码 后 ， 可 得 到 如 下 输出 : 


array([[[[ 0., 9.], 

号 FP AP 

LT: Bes Bel; 

[ 3., 6.]]], 

[[[ 2., 4.], 

[ 4., 8.]], 

IE e See, 

[ 8., 16.]]]], dtype=float32) 


该 输出 是 另 一 个 与 nput batch 同 秩 的 张 量 ， 但 其 维 数 与 卷 积 核 相 同 。 若 input_batch 代 表 一 幅 图 像 ， 它 拥有 一 个 通道 。 在 这 种 情形 下 ， 它 将 被 视 为 一 幅 灰 度 图 
像 。 该 张 量 中 的 每 个 元 系 痢 表示 这 幅 图 像 中 的 一 个 像素 。 该 图 像 中 右 下 角 的 像 系 值 将 为 3.0。 








可 将 卷 积 运算 萎 nn.conv2d 视 为 图 像 〈 用 input_ batch 表 示 ) 和 卷 积 核 张 量 kemel 的 组 合 。 这 两 个 张 量 的 卷 积 会 生成 一 幅 特征 图 〈feature mp) 。 特 征 图 是 一 个 比较 
宽泛 的 术语 ， 但 在 计算 机 视觉 中 ， 它 与 使 用 图 像 卷 积 核 的 运算 的 输出 相关 ， 而 现在 ， 特 征 图 通过 为 输出 添加 新 层 代 表 了 这 些 张 量 的 卷 积 


输入 图 像 与 输出 的 特征 图 之 间 的 关系 可 结合 代码 来 分 析 。 访 问 输入 批 数据 和 特征 图 中 的 元 素 时 使 用 的 是 相同 的 索引 。 通 过 访问 输入 批 数 据 和 特征 图 中 位 置 相 
同 的 像素 ， 可 了 解 当 输 入 与 kernej 进 行 卷 积 运算 时 ， 它 的 值 是 如 何 改变 的 。 在 下 面 的 例子 中 ， 图 像 中 在 下方 的 像 妹 经 过 卷 积 后 的 值 变 为 3.0*1.0 和 3.0*2.0。 这 些 值 对 
应 于 像素 值 和 kernel 中 的 相应 值 。 





lower_right image pixel = sess.run(input_batch)[0][1][1] 
lower_right_kernel_pixel = sess.run(conv2d)[0][1][1] 


lower right image pixel, lower right kernel pixel 
FE 上 述 代 码 执 行 后 ， 可 得 到 输出 : 


(array([ 3.], dtype=float32), array([ 3., 6.], 
dtype=f Loat32)) 


FEIR Tl A BP RIS PSR HE BEM eB SEA HR, FF BIA ADR. FEE, SR e h TE. FEA BI 
中 ， 要 想 看 到 卷 积 的 价值 是 比较 困难 的 。 





52.2 ”跨度 





在 计算 机 视觉 中 ， 卷 积 的 价值 体现 在 对 输入 《本 例 中 为 图 像 ) 降 维 的 能 力 上 。 一 幅 2D 图 像 的 维 数 包 括 其 宽度 、 高 度 和 通道 数 。 如 果 图 像 具 有 较 高 的 维 数 ， 则 
意味 着 神经 网 络 扫 摘 所 有 图 像 以 判断 各 像素 的 重要 性 所 需 的 时 间 呈 指数 级 增长 。 利 用 堆积 运算 对 图 像 降 维 是 通过 修改 郑 积 核 的 strides (跨度 ) 参数 实现 的 。 


参数 strides 使 得 苍 积 核 可 跳 过 图 像 中 的 一 些 像 系 ， 从 而 在 输出 中 不 包含 它们 。 实 际 上 ， 说 这 些 像素 “被 跳 过 ”并 不 十 分 准确 ， 因 为 它们 仍然 会 对 输出 产生 影响 。 
strides 参 数 指定 了 当 图 像 维 数 较 高 ， 且 使 用 了 较为 复杂 的 卷 积 核 时 ， 卷 积 运算 应 如 何 进 行 。 当 卷 积 运算 用 卷 积 核 遍历 输入 时 ， 它 利用 这 个 路 度 参数 来 修改 届 历 输入 
的 方式 。strides 参 数 使 得 卷 积 核 无 需 禹 历 输入 的 每 个 元 素 ， 而 是 可 以 直接 跳 过 茶 些 元 素 。 

















例如 ， 假 设 需要 计算 一 幅 较 大 的 图 像 和 一 个 较 大 的 卷 积 核 之 间 的 卷 积 运算 。 在 这 个 例子 中 ， 图 像 的 高 度 为 6 个 像素 ， 宽 度 为 6 个 像素 ， 而 深度 为 1 个 通道 
(6x6x1) ， 卷 积 核 尺寸 为 (3x3x1) 。 
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input_batch = tf.constant([ 

[ # 第 1 个 输入 (6x6x1) 
[L00]; [1.0], [2.0], [3.0], [4.0], [5.0]], 
Litem, [only [dowels [eekly Meek, [el I. 
LIO., [2.2]. [22]. (3.21, Mz]. [S 
[E03] Tl, [ED (331s [Sl], (BSI; 
[ieS (2.8), (Bel, CL. A, (SAI, 
[EO.S). [2:5]. [esl, [3.5], 14451. [5:51], 

la 

]) 


kernel = tf.constant([ # 卷 积 核 (3x3x1) 
[[[9.0]], [[9.5]], [[9.9]]], 
[[[9.0]], [[1.0]], [[0.0]]], 
[[L0.0]], [[9.5]], [[0.0]]] 
]) 


# 注意 : strides ži K TEK 

conv2d = tf.nn.conv2d(input_batch, kernel, strides=[1, 3, 3, 
1], padding='SAME') 

sess.run(conv2d) 


执行 上 述 代码 ， 可 得 到 下 列 输出 : 


array([[[[ 2.20000005], 
[ 8.19999981]], 
[[ 2.79999995], 
[ 8.80000019]]]], dtype=float32) 








通过 将 kemel 在 input batch 上 滑动 ， 同 时 路 过 【或 跳 过 ) 某 些 元 素 ，input batch 与 Kernel 便 结 合 在 一 起 。kerel 每 次 移动 时 ， 都 将 input batch 的 一 个 元 素 作 为 中 心 。 
然后 ， 位 置 重 登 的 值 相 乘 ， 再 将 这 些 乘 积 相 加 得 到 卷 积 的 结果 。 卷 积 就 是 通过 这 种 逐 点 相 乘 的 方式 将 两 个 输入 整合 在 一 起 的 。 利 用 下 图 可 更 容易 地 将 卷 积 运算 可 
视 化 。 














(jo*got'" +t, *8,) 


0.0*0+1.0*0.5+2.0*0 
01*0+11*1+21*0 |<—” 
02*0+1.2*0.5+2.2*0 


上 图 所 体现 的 是 与 之 前 的 代码 完全 相同 的 逻辑 。 两 个 张 量 进行 了 卷 积 运算 ， 但 卷 积 核 会 跳 过 输入 中 的 一 些 固 定数 目的 元 素 。strides 显 著 降低 了 输出 的 维 数 ， 而 
卷 积 核 允 许 卷 积 使 用 所 有 的 输入 值 。 在 输入 数据 中 ， 没 有 任何 元 素 在 航 跳 过 时 被 移 除 ， 但 它 仍然 变 成 了 一 个 形状 更 小 的 张 量 。 





设置 跨度 是 一 种 调整 输入 张 量 维 数 的 方法 。 降 维 可 减少 所 需 的 运算 量 ， 并 可 避免 创建 一 些 完 全 重 登 的 感受 域 。strides 参 数 的 格式 与 输入 向 量 相 同 ， 即 
(image batch size stride. image height stride, image width stride. image channels stride) 。 第 1 个 和 最 后 一 个 跨度 参数 通常 很 少 修改 ， 因 为 它们 会 在 给 nn.conv2d 运 算 中 
跳 过 一 些 数据 ， 从 而 不 将 这 部 分 数据 予以 考虑 。 如 果 和 希望 降低 输入 的 维 数 ， 可 修改 image height stride 和 image width stride 参 数 。 


在 对 输入 使 用 跨度 参数 时 ， 所 面临 的 一 个 挑战 是 如 何 应 对 那些 不 是 恰好 在 输入 的 边界 到 达 尽 头 的 跨度 值 。 非 均匀 的 跨越 通常 在 图 像 尺 寸 和 卷 积 核 尺 寸 与 跨度 
参数 不 匹配 时 出 现 。 如 果 图 像 尺寸 、 卷 积 核 尺寸 和 strides 参 数 都 无 法 改变 ， 则 可 采取 对 图 像 填充 边界 的 方法 来 处 理 那 些 非 均 匀 区 域 。 
ww ai bbt.com ODDODODOD 





5.2.3 边界 填充 


当 卷 积 核 与 图 像 重 县 时 ， 它 应 当 落 在 图 像 的 边界 内 。 有 时 ， 两 者 尺寸 可 能 不 匹配 ， 一 种 较 好 的 补救 集 略 是 对 图 像 缺 失 的 区 域 进 行 填充 ， 即 边界 填充 。 
TensorFlow 会 用 0 进行 边界 填充 ， 或 当 卷 积 核 与 图 像 太 十 不 匹配 ， 但 义 不 允 许 卷 积 核 跨 越 图 像 边 界 时 ， 会 引发 一 个 错误 。ttnn.conv2d 的 零 填 充 数量 或 错误 状态 是 由 
参数 padding 控 制 的 ， 它 的 取 值 可 以 是 SAME 或 VALID。 








SAME: 卷 积 输出 与 输入 的 矿 寸 相同 。 这 里 在 计算 如 何 跨 越 图 像 时 ， 并 不 考虑 滤波 器 的 矿 寸 。 选 用 该 设置 时 ， 缺 失 的 像 系 将 用 0 填充 ， 卷 积 核 扫 过 的 像素 数 
将 超过 图 像 的 实际 像素 数 。 


VAUD: 在 计算 苍 积 核 如 何在 图 像 上 跨越 时 ， 需 要 考虑 滤波 絮 的 尺寸 。 这 会 使 卷 积 核 尽 量 不 越过 图 像 的 边界 。 在 某 些 情形 下 ， 可 能 边界 也 会 被 填充 。 





在 计算 卷 积 时 ， 最 好 能 够 考虑 图 像 的 尺寸 ， 如 果 边 界 填 充 是 必要 的 ， 则 TensorFlow 会 有 一 些 内 置 选项 。 在 大 多 数 比较 简单 的 情形 下 ，SAME 都 是 一 个 不 错 的 选 
择 。 当 指定 跨度 参数 后 ， 如 条 输入 和 卷 积 核能 够 很 好 地 工作 ， 则 推荐 使 用 VALID。 关 于 这 两 个 参数 的 更 多 介绍 ， 请 参 
Æ https://www.tensorflow.org/versions/master/api_docs/python/nn.htmiconvolution. 


5.2.4 数据 格式 





萎 nn.conV2d 还 有 另外 一 个 参数 data format 未 在 上 述 例 程 中 使 用 。tftnn.conv2d 文 档 详 细 解 释 了 如 何 修改 数据 格式 ， 以 使 nput、kernel 和 strides 遵 循 某 种 与 到 目前 为 止 
所 使 用 的 格式 不 同 的 格式 。 如 果 有 某 个 输入 张 量 未 遵循 [batch size，heisht，width，channell 标 准 ， 则 修改 该 格式 便 非 常 有 用 。 除 了 修改 输入 的 格式 ， 使 之 与 标准 匹 
配 外 ， 也 可 修改 data format 参 数 以 使 用 一 种 不 同 的 布局 。 


data format: 该 参数 可 取 为 "NHWC 或 'NCHW”， 默 认 值 为 'NHWC”， 用 于 指定 输入 和 输出 数据 的 格式 。 当 取 默 认 格式 'NHWC 和 时 ， 数 据 的 存储 顺序 为 
[batch, in height, in width, in channels]。 若 该 参数 取 为 'NCHW”， 数 据 存储 顺序 为 [batch，in_ channels, in height, in width]. 


数据 格式 E X 

批 数 据 中 的 张 量 数目 ， 即 batch_size 
每 个 批 数 据 中 张 量 的 高 度 

每 个 批 数 据 中 张 量 的 宽度 

每 个 批 数据 中 张 量 的 通道 数 


Q;=]/ =z] Zz 


5.2.5 深入 探讨 卷 积 核 





在 TensorFlow 中 ， 滤 波 器 参数 用 于 指定 与 输入 进行 卷 积 运算 的 卷 积 核 。 尖 波 器 通 冲 用 于 摄影 中 以 调整 图 片 的 属性 ， 如 允许 到 达 摄 像 机 透镜 的 光 通 量 。 在 摄影 
中 ， 摄 影 者 可 借助 滤波 器 对 所 担 摄 的 图 片 做 出 大 幅度 的 修改 。 摄 影 者 之 所 以 能 够 利用 滤波 融 对 图 片 进行 修改 ， 是 因为 滤波 器 能 够 识别 到 达 透 镜 的 光线 的 特定 属 
性 。 例 如 ， 红 色 透 镜 滤波 圳 会 吸收 《或 阻止 ) 不同 于 红色 的 每 种 频率 的 光 ， 使 得 只 有 红色 光 可 通过 该 滤波 器 。 





对 n02088466 3184.jpg 运 用 镜像 红色 滤波 器 前 后 的 效果 


在 计算 机 视觉 中 ， 卷 积 核 〈 滤 波 器 ) 着 用 于 识别 数字 图 像 中 的 重要 属性 。 当 茶 些 滤波 器 感 兴趣 的 特征 在 图 像 中 存在 时 ， 滤 溉 器 会 使 用 特定 模式 突出 这 些 特 
征 。 知 将 除 红色 外 的 所 有 颜色 值 减 小 ， 则 可 得 到 一 个 红色 滤波 器 的 卷 积 核 。 在 这 种 情形 下 ， 红 色 值 将 保持 不 变 ， 而 其 他 任何 匹配 的 颜色 值 将 被 减 小 。 


本 章 一 开始 所 展示 的 例子 使 用 了 一 个 专 为 边缘 检测 设计 的 卷 积 核 。 边 缘 检 测 卷 积 核 在 计算 机 视觉 应 用 中 极为 常见 ， 它 可 用 基本 的 TensorFlow 和 运算 和 一 个 
tfnn.conv2d 运 算 实 现 。 
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kernel = tf.constant([ 


[ 


] ) 


conv2d = tf.nn.conv2d(image_batch, 
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padding="SAME" ) 
activation_map = sess.run(tf.minimum(tf.nn.relu(conv2d), 


255)) 
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kernel, [1, 1, 1, 1], 


500 


将 一 幅 图 像 与 一 个 边缘 检测 卷 积 核 进行 卷 积 所 得 到 的 输出 将 是 所 有 被 检测 到 边缘 的 区 域 。 这 段 代 码 假设 书 有 一 个 图 像 批 数据 〈image_batch) 可 用 。 在 这 个 例 
子 中 ， 示 例 图 像 来 自 Stanford Dogs 数 据 集 ， 卷 积 核 拥 有 3 个 输入 和 3 个 输出 通道 ， 这 些 通 道 对 应 于 [0，255] 区 间 内 的 RGB 值 ， 其 中 255$ 为 最 大 灰 度 值 。 调 用 萎 mnimum 
和 全 nnrelu 的 目的 是 将 卷 积 值 保持 存在 RGB 颜色 值 的 合法 范 [0，255] 内 。 








在 这 个 简单 的 示例 中 ， 也 可 使 用 许多 其 他 的 常见 卷 积 核 。 这 些 卷 积 核 中 的 每 一 个 都 会 突出 图 像 中 的 不 同 模式 ， 从 而 得 到 不 同 的 结果 。 下 列 卷 积 核 通过 增加 颜 
色 的 变化 幅度 可 产生 锐 化 效果 。 


kernel = tf.constant([ 


[ 


[[ 0., 0., 0.], [ 0., 0., 


LL -1., 0., 6.], [ @., -1. 


[[ 0., 0., 0.], [ 0., O., 


[[ “wy Ges 8.15 [ 0., -1. 


[[ 5., 0., 0.], [ 0., 5., 


LL “Bes Gea Gels L Ges -R 
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[ 
[[ 0., 0., 0.], [ 0., 0., 0.], [ 0., 0., 0.]], 
LL ~- 9. Oc], | Os, ~ Gel, | Ge. Gs, “Bj, 
[[ 0, 0., 0.], [ 0., 0., 0.], [ 0 3 0 3 0.]] 

] 


]) 


conv2d = tf.nn.conv2d(image_batch, kernel, [1, 1, 1, 1], 


padding="SAME" ) 


activation_map = sess.run(tf.minimum(tf.nn.relu(conv2d), 


255)) 


0 100 200 


300 
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这 个 卷 积 核 的 作用 是 增加 卷 积 核 中 心 位 置 像素 的 灰 度 ， 并 降低 周围 像素 的 灰 度 。 这 种 灰 度 的 调整 能 够 匹配 那些 具有 较 强 灰 度 的 像素 的 模式 ， 并 提升 它们 的 灰 
度 ， 从 而 使 输出 在 视觉 上 呈现 出 锐 化 的 效果 。 请 注意 ， 这 里 的 卷 积 核 四 角 的 元 系 均 为 0， 并 不 会 对 “形状 的 模式 产生 影响 。 














这 些 卷 积 核 在 比较 初级 的 层次 上 能 够 与 图 像 中 的 一 些 模式 匹配 。 卷 积 神 经 网 络 通过 使 用 从 训练 过 程 中 学 习 到 的 复杂 卷 积 核 不 但 可 以 匹配 边缘 ， 还 可 以 匹配 更 
为 复杂 的 模式 。 在 训练 过 程 中 ， 这 些 卷 积 核 的 初 值 通常 随机 设 定 ， 随 着 训练 迭代 的 进行 ， 它 们 的 值 会 由 CNN 的 学 习 层 目 动 调整 。 当 CNN 训 练 完成 一 轮 迭 代 后 ， 














接收 一 幅 图 像 ， 并 将 其 与 条 个 疮 积 核 进行 郑 积 ， 然 后 依据 预测 结果 与 该 图 像 真 实 标 
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用 CNN 学 习 复杂 的 模式 并 非 只 用 一 个 单 层 卷 积 就 可 完成 ， 即 使 上 述 示例 代码 中 包含 了 一 个 芷 nnrelu 层 用 于 准备 输出 以 便 可 视 化 ， 也 是 不 够 的 。 在 CNN 中 ， 郑 
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积 层 可 多 次 出 现 ， 但 通常 也 会 包含 其 他 类 型 的 层 。 这 些 层 联 合 起 来 构成 了 成 功 的 CNN 架 构 所 必需 的 要 素 。 
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Vet 


一 个 神经 网 络 以 构 要 成 为 CNN， 必 须 至 少 包 含 一 个 卷 积 层 〈 攻 nn.conv2d) 。 单 层 CNN 的 一 种 实际 用 途 是 检测 边缘 。 对 于 图 像 识别 和 分 类 任务 而 言 ， 更 常见 的 情 
形 是 使 用 不 同 的 层 类 型 文 持 菜 个 卷 积 层 。 这 些 层 有 助 于 减少 过 拟 合 ， 并 可 加 速 训练 过 程 和 降低 内 存 占用 率 。 











本 章 所 泗 盖 的 层 主要 集中 于 那些 在 CNN 染 构 中 经 常 使 用 的 层 上 。CNN 可 使 用 的 层 并 非 只 局 限于 这 些 层 ， 它 们 完全 可 以 与 为 其 他 网 络 染 构 设 计 的 层 混 合 使 用 。 


5.3.1 ARE 





我 们 已 经 对 一 种 类 型 的 卷 积 层 一 一 tnn.conv2d 进 行 了 详细 介绍 ， 但 对 高 级 用 户 ， 还 有 一 些 注意 事项 需要 说 明 。TensorFlow 中 的 卷 积 层 所 完成 的 并 非 真正 的 卷 积 ， 
细节 可 参考 https/Awwwi.tensorflow.org/versions/master/api docs/python/nn.htmłconvolution. 实际 上 ， 卷 积 与 TensorFlow 所 采用 的 运算 的 差异 主要 体现 在 性 能 上 。TensorFlow 
采用 了 一 种 可 对 所 有 不 同类 型 的 卷 积 层 中 的 卷 积 运算 进行 加 速 的 技术 。 








每 种 类 型 的 卷 积 层 都 有 一 些 用 例 ， 但 ttmn.conv2d 是 一 个 较 好 的 切入 点 。 其 他 类 型 的 卷 积 也 十 分 有 用 ， 但 在 构建 能 够 完成 目标 识别 和 分 类 任务 的 网 络 时 ， 并 不 需 
要 它们。 下 面 对 这 些 卷 积 类 型 做 一 简要 概括 。 





1.tfnn.depthwise_conv2d 


当 需 要 将 一 个 卷 积 层 的 输出 连接 到 男 一 个 卷 积 层 的 输入 时 ， 可 使 用 这 种 卷 积 。 一 种 高 级 用 例 是 利用 ttnn.depthwise_conv2d 创 建 一 个 避 循 Inception 架 构 的 网 络 〈( 参 
见 httpsy/arxiv.org/abs/1512.00567 ) 。 


2.tfnn.separable_conv2d 


‘E-Stinn.conv2ad Wl, (AIPA A hie TARRAK, E ZEAE 8 A EP SLUR AE. RB) RA, eS RCL 
但 准确 率 较 低 。 





3.tfnn.conv2d_ transpose 
ER “PAA a EL, Jee ee oe oe RA. Seem, FES eB or eA TE — ik. OR EE He 
解释 了 斯 坦 福 大 学 课程 CS231n Winter 2016: Lecture 13 中 关于 如 何 将 给 mn.conv2d_transpose 用 于 可 学 习 的 降 末 样 的 问题 。 


5.3.2 ”激活 函数 


这 些 函 数 与 其 他 层 的 输出 联合 使 用 可 生成 特征 图 。 它 们 用 于 对 茶 些 运 算 的 结果 进行 平滑 (或 微分 ) 。 其 目标 是 为 神经 网 络 引 入 非 线 性 。 非 线性 意味 着 输入 和 输 
出 的 关系 是 一 条 曲线 ， 而 非 直 线 趾 。 曲 线 能 够 刻画 输入 中 更 为 复杂 的 变化 。 例 如 ， 非 线性 映射 能 够 描述 那些 大 部 分 时 间 值 都 很 小 ， 但 在 某 个 单 点 会 周期 性 地 出 现 极 
值 的 输入 。 为 神经 网 络 引入 非 线性 可 使 其 对 在 数据 中 发 现 的 复杂 模式 进行 训练 。 








TensorFlow 提 供 了 多 种 激活 函数 。 在 CNN 中 ， 人 们 之 所 以 主要 使 用 萎 nnrelh， 是 因为 它 虽 然 会 带 来 一 些 信 息 损 失 ， 但 性 能 较为 突出 。 开 始 设计 模型 时 ， 推 荐 使 用 
熙 nnrelu， 但 高 级 用 户 也 可 创建 目 己 的 激活 函数 。 评 价 东 个 激活 函数 是 否 有 用 时 ， 可 考虑 下 列 为 数 不 多 的 几 个 主要 因素 。 





D 该 函数 应 是 单调 的 ， 这 样 输出 便 会 随 着 输入 的 增长 而 增长 ， 从 而 使 利用 梯度 下 降 法 寻找 局 部 极 值 点 成 为 可 能 。 





2) 该 函数 应 是 可 微分 的 ， 以 保证 该 函数 定义 域内 的 任意 一 点 上 导数 都 存在 ， 从 而 使 得 梯度 下 降 法 能 够 正 闻 使 用 来 目 这 类 激活 函数 的 输出 。 


任何 满足 这 些 条 件 的 函数 都 可 用 作 激活 函数 。 在 TensorFlow 中 ， 有 少量 激活 函数 值得 一 提 ， 它 们 在 各 种 CNN 染 构 中 都 极为 常见 。 下 面 给 出 这 些 激活 函数 的 简要 
介绍 ， 并 通过 一 些 示例 代码 片段 来 说 明 其 用 法 。 





1.tfinnrelu 


FEARLESS, (BIE SCPE TC BOK AR BL, ALAN RB STR RE I. ReLUse AGRE, SAM CASE SOY, es Sa AAT]; if Sy A 


0, +00] 


为 负 时 ， 输 出 均 为 0。 它 的 优点 在 于 不 受 ' 粮 度 消失 ”的 影响 ， 是 取信 范围 为 | ; 其 缺点 在 于 当 使 用 了 较 大 的 学 习 速 率 时 ， 易 受 达到 饱和 的 神经 元 的 影响 。 


features = tf.range(-2, 3) 
# 注意 值 为 负 的 特征 的 输出 值 
sess.run([features, tf.nn.relu(features) ]) 


执行 上 述 代 码 后 可 得 到 输出 : 


[array([-2, -1, 0, 1, 2], dtype=int32), array([0, 0, 0, 1, 
2], dtype=int32) ] 
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在 这 个 例子 中 ， 输 入 为 一 个 由 [-2，3] 内 的 整数 构成 的 秩 1 张 量 (向量 ) 。tfnnrelu 会 将 那些 小 于 0 的 分 量 置 为 0， 而 保持 其 余 分 量 不 变 。 


2.ttsigmod 

sigmoid 函 数 的 返回 值 位 于 区 间 [0.0，1.0] 中 。 当 输入 值 较 大 时 ， 人 sigmoid 将 返回 一 个 接近 于 1.0 的 值 ， 而 输入 值 较 小 时 ， 人 返回 值 将 接近 于 0.0。 对 于 在 那些 真实 输出 
位 于 [0.0，1.0] 的 样本 上 训练 的 神经 网 络 ，sigmoid 冰 数 可 将 输出 保持 在 [0.0，1.0] 内 的 能 力 非 党 有 用 。 当 输入 接近 饱和 或 变化 剧烈 时 ， 对 输出 范围 的 这 种 缩减 往往 会 珊 
来 一 些 不 利 影响 。 


# JER: tf.sigmoid (tf.nn.sigmoid) 目前 仅 可 接收 浮 点 值 
Features 一 ee EE ey ieee. 3)) 
sess.run([features, tf.sigmoid(features) ]) 


上 述 代 码 执行 后 的 输出 为 : 


[array([-1., 0., 1., 2.], dtype=float32), 
array([ 0.26894143, 0.5, 0.7310586, 0.88079703], 


dtype=f lLoat32) ] 
在 本 例 中 ， 一 组 整数 被 转化 为 浮 点 类 型 〈]1 变 为 1.0) ， 并 传 入 一 个 sigmoid 函 数 。 当 输入 为 0 时 ，sigmoid 函 数 的 输出 为 0.3$， 即 sigmoid 函 数值 域 的 中 间 点 


3.tftanh 
双 曲 正切 函数 (tanh) 5tfsigmoidse Bait, AS Re AAU TRA. tisigmoidftftanhty EEK GET a et A AL-1.0, 1.0]. ERRE E AY KAE 








中 ， 能 够 输出 负 值 的 能 力 可 能 会 非常 有 用 。 


# 注意 ，tf.tanh (tf.nn.tanh) 目 前 只 支持 浮 点 类 型 的 输入 
features = tf.to_float(tf.range(- 1, 3)) 
sess.run([features, tf.tanh(features) ]) 


述 代 码 的 输出 为 : 


[array([-1., 0., 1 
array([-0.76159418, 0., 


dtype=float32) ] 
在 本 例 中 ， 所 有 的 设置 均 与 上 述 萎 sigmoid 例 子 相 同 ， 但 输出 却 存在 重要 的 差异 。tftanh 值 域 的 中 间 点 为 0.0。 当 网 络 中 的 下 一 层 期 待 输入 为 负 值 或 0.0 时 ， 这 可 


., 2.], dtype=float32), 
0.76159418, 0.96402758], 


引发 一 些 问 题 。 


4 tfnn.dropout 





这 个 层 会 有 很 好 的 表现 。 一 种 适合 的 场景 是 : HRF A I HESS EU I A 





依据 某 个 可 配置 的 概率 将 输出 设 为 0.0。 当 引入 少量 随机 性 有 助 于 训练 时 ， 
过 强 时 。 这 种 层 会 为 所 学 习 到 的 输出 添加 少量 噪声 。 





注意 : 这 种 层 应 当 只 在 训练 阶段 使 用 。 如 有 果 在 测试 阶段 使 用 该 屋 ， 它 所 引入 的 随机 噪声 将 对 结果 产生 误导 。 
features = tf.constant([-0.1, 0.0, 0.1, 0.2]) 

# 注意 ， 每 次 执行 时 ， 输 出 都 应 不 同 。 你 的 数字 不 会 与 这 些 输出 匹配 
sess.run([features, tf.nn.dropout(features, keep_prob=0.5)]) 


述 代码 的 输出 为 : 


[array([-0.1, 0., 0.1, 0.2], dtype=float32), 
array([-0., 0., 0.2, 0.40000001], dtype=float32)] 


在 这 个 例子 中 ， 输 出 有 50% 的 概率 能 够 得 到 保持 。 每 次 执行 该 层 时 ， 都 将 得 到 不 同 的 输出 《〈 带 有 一 些 随 机 性 ) o SAR MRT ESE, EEAO.. 


5.3.3” 池 化 层 
池 化 层 能 够 减少 过 拟 合 ， 并 通过 减 小 输入 的 尺寸 来 提高 性 能 。 它 们 可 用 于 对 输入 降 采 样 ， 但 会 为 后 续 层 保 留 重 要 的 信息 。 只 使 用 给 nn.conv2d 来 减 小 输入 的 尺寸 


也 是 可 以 的 ， 但 池 化 层 的 效率 更 高 。 
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1.tfnn.max_pool 


DEK SRS sk Be, FPS RATA MTR PR CA BUF A SPAR oA Bi RES VR BE PEPIN, ROMINA SRE HY H o 











这 个 例子 也 可 通过 下 列 示 例 代 码 来 说 明 ， 目 标 是 找到 张 量 中 的 最 大 分 量 。 


# 输入 通常 为 前 一 层 的 输出 ， 而 非 直接 为 图 像 
batch_size=1 

input_height = 3 

input_width = 3 

input_channels = 1 


Layer_input = tf.constant([ 


[ 
[[1.0], [0.2], [1.5]], 
[18.2 ]5. [2.2], (2.4101, 
[[1.1], [0.4], [0.4]] 
] 


] ) 


# Strides 会 使 用 image_height 和 image_width 遍 历 整 个 输入 

kernel = [batch_size, input_height, input_width, 
input_channeLs ] 

max_pool = tf.nn.max_pool(layer_input, kernel, [1, 1, 1, 1], 


"VALID") 
sess.run(max_pooL) 


这 段 代 人 码 的 输出 为 : 


array([[[[ 1.5]]]], dtype=float32) 























layer input 是 一 个 形状 类 似 于 萎 nn.conv2d 或 某 个 激活 函数 的 输出 的 张 量 。 目 标 是 仅 保 留 一 个 值 ， 即 该 张 量 中 的 最 大 元 素 。 在 本 例 中 ， 该 张 量 的 最 大 分 量 为 1.3$， 并 
以 与 输入 相同 的 格式 被 返回 。 

最 大 池 化 (max-pooling)〉 通常 是 利用 2x2 的 接受 域 〈 高 度 和 宽度 均 为 2 的 卷 积 核 ) 完成 的 ， 它 通常 也 被 称 为 "2x2 的 最 大 池 化 运算 ” 使 用 2x2 的 接受 域 的 原因 之 一 
在 于 它 是 在 单个 通路 上 能 够 实施 的 最 小 数量 的 降 采 样 。 如 果 使 用 1x1 的 接受 域 ， 则 输出 将 与 输入 相同 。 


2.ttnn.ave pool 





跳跃 裔 历 一 个 张 量 ， 并 将 被 卷 积 核 禾 盖 的 各 深度 值 取 平 均 。 当 整个 卷 积 核 都 非常 重要 时 ， 戎 需 实现 值 的 缩减 ， 平 均 池 化 是 非常 有 用 的 ， 例 如 输入 张 量 宽度 和 蜗 
度 很 大 ， 但 深度 很 小 的 情况 。 
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1.0 [1.0] fo) 
0.0 (0.0) (0.0) 


这 个 例子 可 以 用 下 列 代 码 片 段 来 模拟 ， 目 标 是 求 出 张 量 中 所 有 分 量 的 均值 。 


batch _size=1 
input_height = 3 
input_width = 3 
input_channels = 1 


layer_input = tf.constant([ 


[ 
[{1.0], [1.0], [1.0]], 
[{1.0], [0.5], [0.0], 
[[0.0], [0.0], [0.0]] 
] 


] ) 
# Strides 会 使 用 image_height 和 image_width 遍 历 整个 输入 


kernel = [batch_size, input_height, input_width, 

input channels| 

max_pool = tf.nn.avg_ pool(layer_input, kernel, [1, 1, 1, 1], 
"VALID" ) 

sess.run(max_pooL) 


上 述 代 码 执 行 后 的 输出 为 : 
array([[[[ 9.5]]]], dtype=float32) 
对 该 张 量 中 的 所 有 分 量 求 和 ， 再 除 以 张 量 中 分 量 的 个 数 : 


1.0+1.0+1.0+1.0+0.5+0.0+0.0+0.0+0.0 
9.0 


上 述 代 码 所 完成 的 运算 正 是 上 式 ， 但 通过 减 小 卷 积 核 的 尺寸 ， 改 变 输出 的 尺寸 便 成 为 可 能 。 
5.3.4 由 一 化 


归 一 化 层 并 非 CNN 所 独 有 。 在 使 用 tnmn.relu 时 ， 考 处 输 出 的 归 一 化 是 有 价值 的 。 由 于 ReLU 是 无 界 函数 ， 利 用 某 些 形式 的 归 一 化 来 识别 那些 高 频 特征 通常 是 十 分 
有 用 的 。 


tfnn.local response normalization (tfnn.lrn) 


局 部 响应 归 一 化 是 一 个 依据 求 和 操作 而 形成 输出 的 函数 ， 详 情 请 参考 TensorFlow 官 方 文档 趾 。 





ee 在 某 个 给 定向 量 中 ， 每 个 分 量 都 被 depth radius 覆盖 的 输入 的 加 权 和 所 除 。 








归 一 化 的 目标 之 一 在 于 将 输入 保持 在 一 个 可 接受 的 范围 内 。 例 如 ， 将 输入 归 一 化 到 [0.0，1.0] 区 间 内 将 使 输入 中 所 有 可 能 的 分 量 归 一 化 为 一 个 大 于 等 于 0.0 且 小 于 
等 于 1.0 的 值 。 局 部 啊 应 归 一 化 在 对 知 干 值 归 一 化 时 ， 还 会 将 每 个 值 的 重要 性 加 以 考虑 。 
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关于 为 何在 某 些 CNN 架 构 中 使 用 局 部 响应 归 一 化 非常 有 用 ，cuda-convnet 的 文档 司 提 供 了 更 多 细节 。ImageNet 中 利用 该 层 对 来 自 tnnrelu 的 输出 进行 了 归 一 化 。 


# 创建 一 组 浮 点 数值 
layer input = tf.constant([ 
[[[ 1.]], [[ 2.]], [[ 3.]]] 
] ) 


lrn = tf.nn.local_response_normalization(layer_input) 
sess.run([layer_input, lrn]) 


执行 上 述 代 人 码 后 ， 可 得 到 输出 : 


[array([[[[ 1.]], 
[L 2.]], 
[[ 3.]]]], dtype=float32), array([[[[ 0.70710677]], 
[[ 0.89442718]], 
[[ 0.94868326]]]], dtype=float32)] 


在 上 述 示例 代码 中 ， 层 的 输入 格式 为 [batch，image height, image width, image channekg]。 归 一 化 会 将 输出 调整 到 区 间 [-1.0，1.0] 中 。 归 一 化 层 tfnnrelu 会 将 其 无 界 
的 输出 调整 到 相同 的 范围 内 。 


53.5 ”高 级 层 





为 使 标准 层 的 定义 在 创建 时 更 加 简单 ，TensorFlow 引 入 了 一 些 高 级 网 络 层 。 这 些 层 不 是 必需 的 ， 但 它们 有 助 于 减少 代码 元 余 ， 同 时 遵循 最 佳 的 实践 。 开 始 时 ， 这 
些 层 需要 为 数据 流 图 添加 大 量 非 核心 的 节点 。 在 使 用 这 些 层 之 前 ， 投 入 一 些 精力 了 解 相 关 基 础 知识 是 非常 值得 的 。 


1.tfcontrib. layers.convolution2d 





convolution2d)= 4 tfinn.conv2dhyi2 48-40 IF], BELEREN Mea. LUZ eee E EA A aS I PB EY BE © CNNE A BE RA YE 
SAHA, (MAS Se. FAERIE CCNN 的 目标 是 训练 该 变量 ) ， 权 值 初始 化 用 于 在 卷 积 核 首 次 运行 时 ， 为 其 进行 值 的 填充 
(tftruncated_nommal) 。 其 余 参 数 与 之 前 使 用 过 的 类 似 ， 只 是 使 用 了 缩写 的 版 本 。 无 需 声 明 完 整 的 卷 积 核 ， 它 采用 简单 的 元 组 形式 〈1，1) 表示 卷 积 核 的 高 度 和 帘 
度 。 
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image_input = tf.constant([ 


(Os Bis Bile TS WSs, WSele [Bs 
0., 0.]], 

ie., 191., 0.], [3., 108., 233.], Të., 
a BIT; 

[[254., 0., @.], [255., 255., 255.], [0., 
0., 0.]] 


] ) 


conv2d = tf.contrib.layers.convolution2d( 
image_input, 
num_output_channels=4, 
kernel_size=(1,1), # 这 里 仅 有 滤波 器 的 高 度 和 宽度 


activation_fn=tf.nn.relu, 
stride=(1, 1), # 对 image_batch 和 input_channels 的 跨度 值 


trainable=True) 


# 有 必要 对 在 convolution2d 的 设置 中 所 使 用 的 变量 初始 化 
sess.run(tf.initialize all variables()) 
sess.run(conv2d) 


这 段 代码 执行 后 的 输出 为 : 


array([[[[ 0., 0., 0., 0.], 
[ 166.44549561, 0., 0., 0.], 
[ 171.00466919, ©., 0., 0.]], 
[[ 28.54177475, 0., 59.9046936, 0.], 
[ 0., 124.69891357, 0., 0.], 
[ 28.54177475, 0., 59.9046936, 0.]], 
[[ 171.00466919, 0., 0., 0.], 
[ 166.44549561, 0., 0., 0.], 
[ 0., 0., 0., 0.]]]], dtype=float32) 
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设置 ， 而 一 旦 设置 完成 ， 便 无 需 再 次 编写 。 对 于 高 级 用 户 而 言 ， 该 层 可 帮助 他 们 市 省 大 量 时 间 。 





注意 : 当 输 入 为 一 幅 图 像 时 ， 不 应 使 用 ttto_foat， 而 应 使 用 长 image.convert_ image _dtype， 该 方法 将 以 恰当 的 方式 调整 各 分 量 以 表示 颜色 值 。 在 这 段 示例 代码 中 ， 
使 用 了 浮 点 值 235.0， 这 并 不 是 TensorFlow 用 浮 点 值 表示 图 像 所 期 望 的 方式 。TensorFlow 要 求 用 浮 点 型 描述 图 像 颜色 时 ， 应 当 将 各 颜色 分 量 控制 在 [0，1] 范 围 内 。 


2.tf:contrib. layers. fully connected 








在 全 连接 层 中 ， 每 个 输入 与 每 个 输出 之 间 都 存在 连接 。 在 许多 架构 中 ， 这 个 层 都 极为 常见 。 对 于 CNN， 最 后 一 层 通常 都 是 全 连接 层 。 
t£contrib. layers.finlly connected 层 提供 了 大 量 创 建 这 个 最 后 层 的 捷径 ， 同 时 遵循 了 最 佳 实践 原则 。 


通常 ，TensorFlow 中 的 全 连接 层 的 格式 是 萎 matmul (features, weight) +bias， 其 中 代 ature、weight 和 bias 均 为 张 量 。 该 层 完成 的 也 是 相同 的 任务 ， 但 同时 也 会 对 由 管 
理 张 量 weight 和 bias 所 引发 的 复杂 性 加 以 考虑 。 
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features = tf.constant([ 


[[1.2], [3.4]] 
]) 


fc = tf.contrib.layers.fully_connected(features, 
num_output_units=2) 

# 要 求 首先 对 所 有 变量 初始 化 ， 否 则 会 引发 一 个 前 提 失 败 的 错误 
sess.run(tf.initialize all variables()) 
sess.run(fc) 


执行 上 述 代 码 后 ， 可 得 到 输出 : 


array([[[-0.53210509, 0.74457598], 
[-1.50763106, 2.10963178]]], dtype=float32) 


这 个 例子 创建 了 一 个 全 连接 层 ， 并 将 输入 张 量 与 输出 层 中 的 每 个 神经 元 建立 了 连接 。 对 于 不 同 的 全 连接 层 ， 还 有 大 量 其 他 参数 需要 调整 。 


3. 输 入 层 











在 CNN 架 构 中 ， 每 一 层 都 有 特定 的 意图 。 (至 少 ) 从 高 层 来 理解 它们 是 非常 重要 的 ， 但 如 果 不 具体 实践 ， 是 很 容易 遗忘 的 。 在 任何 神经 网 络 中 ， 输 入 层 都 至 关 
重要 。 无 论 是 训练 还 是 测试 ， 原 始 输入 都 需要 传递 给 输入 层 。 对 于 目标 识别 与 分 类 ， 输 入 层 为 tnnconv2d， 它 负责 接收 图 像 。 接 下 来 的 步骤 是 在 训练 中 使 用 真实 图 
像 ， 而 非 葵 constant 或 ttrange 变 量 形式 的 样 例 输入 。 


[1 原文 称 “ 非 线性 输入 ”是 完全 错误 的 ， 非 线性 指 的 是 输入 和 输出 之 间 的 映射 关系 。 一 译 者 注 
[2] https//www.tensorflow.org/versions/master/how tos/reading data/index.html#batchng 

[3] https://code.google.com/p/cuda-convnet/wikiLayerParams 

[4] https://papers.nips.cc/paper/4824-imagenet-classification- with-deep-convolutional-neural-networks.pdf 
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54 图 像 与 TensorFlow 


TensorFlow 在 设计 时 ， 就 考虑 了 给 将 图 像 作为 神经 网 络 的 输入 提供 支持 。TensorFlow 支 持 加 载 常 见 的 图 像 格 式 (“JPG、PNG) ， 可 在 不 同 的 颜色 空间 (RGB, 
RGBA) 中 工作 ， 并 能 够 完成 常见 的 图 像 操 作 任务 。 虽 然 TensorFlow 使 得 图 像 操 作 变 得 容易 ， 但 仍然 面临 一 些 挑战 。 使 用 图 像 时 ， 所 面临 的 最 大 挑战 便 是 最 终 需 要 
加 载 的 张 量 的 尺寸 。 每 幅 图 像 都 需要 用 一 个 与 图 像 尺 寸 (height*width*channel) 相同 的 张 量 表示 。 再 次 提醒 ， 通 道 是 用 一 个 包含 每 个 通道 中 颜色 数量 的 标量 的 秩 1 张 


量 表 示 。 
在 TensorFlow 中 ， 一 个 红色 的 RGB 像素 可 用 如 下 张 量 表示 : 


red = tf.constant([255, 0, 0]) 








每 个 标量 都 可 修改 ， 以 使 像素 值 为 另 一 个 颜色 值 或 一 些 颜 色 值 的 混合 。 对 于 RGB 颜色 空间 ， 像 素 对 应 的 秩 1 张 量 的 格式 为 red，green，blue]。 一 幅 图 像 中 的 所 
有 像素 都 存储 在 磁盘 文件 中 ， 它 们 都 需要 被 加 载 到 内 存 中 ， 以 便 TensorFlow 对 其 进行 操作 。 





54.1 加 载 图 像 


TensorFlow 在 设计 时 便 以 能 够 从 磁盘 快速 加 载 文件 为 目标 。 图 像 的 加 载 与 其 他 大 型 二 进 制 文件 的 加 载 是 相同 的 ， 只 是 图 像 的 内 容 需 要 和 解码。 加 载 下 列 3x3 的 JPG 
格式 的 示例 图 像 的 过 程 与 加 载 任何 其 他 类 型 的 文件 完全 一 致 。 





# match_filenames_once 将 接收 一 个 正则 表达 式 ,， 但 在 本 例 中 ,这 是 不 需要 的 
image filename = "./images/chapter-05-object-recognition-and- 
classification/working-with-images/test-input-image. jpg" 
filename queue = tf.train.string_input_producer( 


tf.train.match_filenames_once(image_filename) ) 
image reader = tf.WholeFileReader() 


_, image file = image _reader.read(filename queue) 
image = tf.image.decode jpeg(image file) 





在 上 述 代码 中 ， 假 定 该 图 像 位 于 代码 运行 的 当前 目录 的 某 个 相对 路 径 之 下 。 输 入 生成 器 (tftrain.string input producer) 会 找到 所 需 的 文件 ， 并 将 其 加 载 到 一 个 队 
列 中 。 加 载 图 像 要 求 将 完整 的 文件 加 载 到 内 存 中 从 WholeFileReader) 。 一 旦 文件 被 读 取 Cimage_reader.read) ， 所 得 到 的 图 像 就 将 被 解码 (tfimage.decode jpeg) 。 





这 样 便 可 以 但 看 这 幅 图 像 。 由 于 按照 名 称 只 存在 一 个 文件 ， 所 以 队列 将 始终 返回 同一 幅 图 像 。 


sess.run(image) 
执行 上 述 代 码 后 ， 可 得 到 输出 : 


array([[[ 0, 0, 0], 
[255, 255, 255], 
[254, 0, O]], 
[[ 0, 191, 0], 
[ 3, 108, 233], 
[ 0, 191, O]], 
[[254, 0, 0], 
[255, 255, 255], 
[ 0, 0, 0]]], dtype=uints) 
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单 的 三 阶 张 量 。RGB 值 对 应 9 个 一 阶 张 量 。 通 过 前 面 章 市 的 学 习 ， 应 该 对 图 像 张 量 的 高 阶 数 已 经 比较 熟悉 了 。 


意 ， 它 是 一 个 非常 简 





加 载 图 像 后 ， 查 看 输出 。 注 
被 加 载 到 内 存 中 的 图 像 格 式 为 [batch size, image height, image width, channels]. 
本 例 中 的 batch_size 为 1， 因 为 没有 任何 批 运算 发 生 。 关 于 对 输入 分 批 的 更 多 细节 请 参考 TensorFlow 文 档 中。 在 处 理 图 像 时 ， 请 注意 加 载 原始 图 像 所 需 的 内 存 。 


如 宁 一 个 批 数据 中 的 图 像 过 大 或 过 多 ， 系 统 可 能 会 停止 啊 应 。 


542 图像 格式 
考虑 图 像 的 各 个 方面 以 及 它们 如 何 对 模型 造成 影响 非常 重要 。 当 使 用 来 自 一 台 RED Weapon 摄 像 机 的 单 帧 图 像 训 练 一 个 网 络 时 ， 考 虑 会 发 生 什么 。 在 笔者 撰写 








本 书 时 ， 这 种 摄像 机 的 分 辨 率 为 6144x3160 像 素 。 这 样 的 一 帧 图 像 需要 用 包含 19415040 个 市 有 3 个 维度 的 颜色 信息 的 一 阶 张 量 表示 。 








实际 上 ， 这 种 尺寸 的 输入 将 占用 个 大 量 系统 内 存 。 训 练 一 个 CNN 需 要 大 量 时 间 ， 加 载 非常 大 的 文件 会 进一步 增加 训练 所 需 的 时 间 。 即 便 增加 的 时 间 在 可 接受 








的 范围 内 ， 单 幅 图 像 的 尺寸 也 很 难 存 放 在 大 多 数 系 统 的 GPU 显 存 中 。 
输入 图 像 尺 寸 过 大 也 会 为 大 多 数 CNN 模 型 的 训练 产生 不 利 影响 。CNN 总 是 试图 找到 图 像 中 的 本 征 属性 ， 虽 然 这 些 属性 有 一 定 的 独特 性 ， 但 也 需要 推广 到 其 他 











具有 类 似 结果 的 图 像 上 。 使 用 尺寸 过 大 的 输入 会 使 网 络 中 充斥 大 量 无 关 信 息 ， 从 而 影响 模型 的 泛 化 能 
在 Stanford Dogs 数 据 集中 ， 哈 巴 狗 类 别 中 存在 两 幅 外 观 包 异 的 图 像 。 虽 然 非常 可 爱 ， 但 这 些 图 像 中 充斥 了 大 量 会 在 训练 中 对 网 络 造 成 误导 的 无 用 信息 。 例 如 ， 
文件 n02110958_4030.jpg 中 的 哈巴 狗 所 戴 的 帽子 不 是 CNN 为 匹配 哈巴 狗 所 需要 学 习 的 特征 。 大 多 数 哈巴 狗 喜 欢 海盗 帽 ， 因 此 图 像 中 有 小 丑 帽 实际 上 是 在 训练 网 络 去 








匹配 一 个 大 多 数 哈 巴 狗 都 没 戴 着 的 帽子 。 


A N 





4 ~ 
n02110958 4030.jpg 





n02110958_2410.jpg 
通过 按照 某 种 恰当 的 文件 格式 存储 并 处 理 得 以 强调 的 。 在 使 用 图 像 时 ， 不 同 的 格式 可 用 于 解决 不 同 的 问题 。 








图 像 中 的 重要 信息 是 





1.JPEG 与 PNG 
TensorFlow 拥 有 两 种 可 对 图 像 数据 解码 的 格式 ， 一 种 是 芷 image.decode jpeg， 另 一 种 是 萎 image.decode png。 在 计算 机 视觉 应 用 中 ， 这 些 都 是 常见 的 文件 格式 ， 因 


为 将 其 他 格式 转换 为 这 两 种 格式 非常 容易 。 
值得 注意 的 是 ，JPEG 图 像 不 会 存储 任何 alpha 通 道 的 信息 ， 但 PNG 图 像 会 。 如 果 在 训练 模型 时 需要 利用 alpha 信 息 ( 透 明度 )， 则 这 一 点 非常 重要 。 一 种 应 用 场 
将 这 些 区 域 置 为 黑色 会 使 它们 与 该 图 像 中 的 其 他 黑色 区 域 看 起 来 有 相似 的 重要 性 。 知 将 所 移 








景 是 当 用 户 手工 切除 图 像 的 一 些 区 域 ， 如 狗 所 戴 的 不 相关 的 小 丑 帆 


除 的 帽子 对 应 的 区 域 的 alpha 值 设 为 0， 则 有 助 于 标识 该 区 域 是 说 移 除 的 区 域 。 
使 用 JPEG 图 像 时 ， 不 要 进行 过 于 频繁 的 操作 ， 因 为 这 样 会 留 下 一 些 伪 影 (artiact) 。 在 进行 任何 必要 的 操作 时 ， 获 取 图 像 的 原始 数据 ， 并 将 它们 导出 为 JPEG 











文件 。 为 了 市 省 训练 时 间 ， 请 试 着 尽量 在 图 像 加 载 之 前 完成 对 它们 的 操作 。 
如 果 一 些 操 作 是 必要 的 ，PNG 疼 像 可 以 很 好 地 工作 。PNG 格 式 采 用 的 是 无 损 压 缩 ， 因 此 它 会 保留 原始 文件 〈 除 非 被 缩放 或 降 采 样 ) 中 的 全 部 信息 。PNG 格 式 





的 缺点 在 于 文件 体积 相 比 JPEG 要 大 一 些 。 





2.TFRecord 
为 将 二 进 制 数 据 和 标签 (训练 的 类 别 标签 ) 数据 存储 在 同一 个 文件 中 ，TensorFlow 设 计 了 一 种 内 置 文件 格式 ， 该 格式 被 称 为 TFRecord， 它 要 求 在 模型 训练 之 前 





通过 一 个 预 处 理 步 又 将 图 像 转 换 为 TFRecord 格 式 。 该 格式 的 最 大 优点 是 将 每 幅 输 入 图 像 和 与 之 关联 的 标签 放 在 同一 文件 中 。 
从 技术 角度 讲 ，TFERecord 文 件 是 protopu 倍 式 的 文件 。 作 为 一 种 经 过 预 处 理 的 格式 ， 它 们 是 非常 有 用 的 。 由 于 它们 不 对 数据 进行 压缩 ， 所 以 可 被 快速 加 载 到 拓 


存 中 。 在 下 面 这 个 例子 中 ， 我 们 将 一 幅 图 像 及 其 标签 写 入 一 个 新 的 TFRecord 格 式 的 文件 中 。 
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# 复 用 之 前 的 图 像 ， 并 赋予 它 一 个 假 标签 
image_label = b'\x01' # 假设 标签 数据 位 于 一 个 独 热 (one-hot ) 编码 表示 中 (00000001) 


# 将 该 张 量 转换 为 字 节 型 ， 注 意 这 会 加 载 整 个 图 像 文件 
image Loaded = sess.run(image) 

image_bytes = image loaded.tobytes() 

image height, image width, image channels = 
image loaded.shape 


# 导出 TFRecord 


writer = tf.python io.TFRecordWriter("./output/training- 
image.tfrecord") 


# 在 样本 文件 中 不 保存 图 像 的 宽度 、 高 度 或 通道 数 ， 以 便 节省 不 要 求 分 配 的 空间 
example = 
tf.train.Example(features=tf.train.Features(feature={ 
'label': 
tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_label])), 
'image': 
tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_bytes])) 
})) 


# 将 样本 保存 到 一 个 文本 文件 tfrecord 中 
writer.write(example.SerializeToString()) 
writer.close() 





标签 的 格式 被 称 为 独 热 编 码 Cone-hot encoding) ， 这 是 一 种 用 于 多 类 分 类 的 有 标签 数据 的 常见 表示 方法 。Stanford Dogs 数 据 集 之 所 以 被 视 为 多 类 分 类 数据 ， 是 
因为 狗 会 被 分 类 为 单一 品种 ， 而 非 多 个 品种 的 混合 。 在 现实 世界 中 ， 当 预测 狗 的 品种 时 ， 多 标签 解雇 方案 通常 较为 有 效 ， 因 为 它们 能 够 匹配 同时 属于 多 个 品种 的 
狗 。 





在 这 段 示例 代码 中 ， 图 像 被 加载 到 内 存 中 并 被 转换 为 字 节 数组 。 之 后 ， 这 些 字 节 被 添加 到 女 train.Examplke 文 件 中 ， 而 后 者 在 被 保存 到 磁盘 之 前 先 通 过 
SerialzeToString 序 列 化 为 二 进 制 字符 串 。 序 列 化 是 一 种 将 内 存 对 象 转换 为 茶 种 可 安全 传输 到 菏 个 文件 的 格式 。 上 面 序列 化 的 样本 现在 被 保存 为 一 种 可 被 加 载 的 格 
式 ， 并 可 被 反 序列 化 为 这 里 的 样本 格式 。 





由 于 图 像 被 保存 为 TFRecord 文 件 ， 所 以 可 被 再 次 加 载 ( 从 TFRecord 文 件 加 载 ， 而 非 从 图 像 文件 加 载 )。 在 训练 阶段 ， 加 载 图 像 及 其 标签 是 必需 的 。 这 样 相 比 将 
图 像 及 其 标签 分 开 加 载 会 节省 一 些 时 间 。 
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# 加 载 TFRecord 文 件 
tf_record filename queue = tf.train.string_input_producer( 


tf.train.match filenames _once("./output/training- 
image. tfrecord")) 


# 注意 这 个 不 同 的 记录 读 取 器 ， 它 的 设计 意图 是 能 够 使 用 可 能 会 包含 多 个 样本 的 TFRecord 文 件 
tf _record_ reader = tf.TFRecordReader() 

_, tf_record_serialized = 

tf_record_reader.read(tf_record filename queue) 


# 标签 和 图 像 都 按 字 节 存储 ， 但 也 可 按 int64 或 float64 类 型 存储 于 序列 化 的 tf Example protobuf x # # 
tf_record features = tf.parse single example( 
tf_record serialized, 
features={ 
'label': tf.FixedLenFeature([], tf.string), 
‘image': tf.FixedLenFeature([], tf.string), 


}) 


# 使 用 tf.Uint8 类 型 Ay Ara by ie fe oS et FO~255 
tf_record_ image = tf.decode raw( 
tf_record_features[ 'image'], tf.uint8) 


# 调整 图 像 的 尺寸 ， 使 其 与 所 保存 的 图 像 类 似 ， 但 这 并 非 必 和 需 的 
tf_record_image = tf.reshape( 

tf_record_image, 

[image height, image width, image channels]) 
+ 用 实 值 表示 图 像 的 高 度 、 宽 度 和 通道 ， 因 为 必须 对 输入 的 形状 进行 调整 


tf_record label = tf.cast(tf_record features['label'], 
tf.string) 





prc, Fe HR AE ay Ce A TY A OE, SEIZE FZ Jai CF HA TFRecordReader REA. tfiparse sinpgle_example 并 不 对 图 像 进行 解码 ， 而 是 
解析 ITFRecord， 然 后 图 像 会 按 原 始 字 节 【〈 萎 decode raw) 被 读 取 。 


该 文件 被 加 载 后 ， 为 使 其 布局 符合 从 mn.conv2d 的 要 求 ， 即 [image height, image width, image channekg]， 需 要 对 形状 进行 调整 (threshape) 。 为 将 batch size 维 添加 
到 input _ batch 中， 需要 对 维 数 进 行 扩展 (tfexpand) 。 


在 本 例 中 ，TFRecord 文 件 中 虽然 只 包含 一 个 图 像 文 件 ， 但 这 类 记录 文件 也 支持 被 写 入 多 个 样本 。 将 整个 训练 集 保存 在 一 个 TFRecord 文 件 中 是 安全 的 ， 但 分 开 存 
储 也 完全 可 以 。 








当 需 要 检查 保存 到 磁盘 的 文件 是 否 与 从 TensorFlow 加 载 的 图 像 是 同一 图 像 时 ， 可 使 用 下 列 代码 : 
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sess.run(tf.equal(image, tf record image)) 


执行 上 述 代 码 后 ， 可 得 到 输出 : 


array([[[ True, True, True], 
[ True, True, True], 
[ True, True, True]], 
[[ True, True, True], 
[ True, True, True], 
[ True, True, True]], 
[[ True, True, True], 
[ True, True, True], 
[ True, True, True]]], dtype=bool) 


可 以 看 出 ， 原 始 图 像 的 所 有 属性 都 和 从 TFRecord 文 件 加 载 的 图 像 一 至。 为 确认 这 一 点 ， 可 从 TFRecord 文 件 加 载 标 签 ， 并 检查 它 与 之 前 保存 的 版 本 是 否 一 致 。 


# 检查 标签 是 否 仍 为 0b00000001. 
sess.run(tf_record label) 


这 段 代 码 的 输出 为 : 
b'\x01' 


创建 一 个 既 可 存储 原始 图 像 数 据 ， 也 可 存储 其 期 望 的 输出 标签 的 文件 ， 能 够 降低 训练 中 的 复杂 性 。 尽 管 使 用 TFRecord 文 件 并 非 必需 ， 但 在 使 用 图 像 数 据 时 ， 
却 是 强烈 推荐 的 。 如 果 对 于 东 个 工作 流 ， 它 不 能 很 好 地 工作 ， 那 么 仍然 建议 在 训练 之 前 对 图 像 进行 预 处 理 并 将 预 处 理 结果 保存 下 来 。 每 次 加 载 图 像 时 才 对 其 进行 
处 理 是 不 推荐 的 做 法 。 





5.4.3 ”图像 操作 








当 给 定 大 量 不 同 质量 的 训练 数据 时 ，CNN 人 往往 能 够 很 好 地 工作 。 图 像 能 够 通过 可 视 化 的 方式 传达 复杂 场景 所 绰 涵 的 茶 种 目标 主题 。 在 Stanford Dogs 数 据 集中 ， 
很 重要 的 一 点 是 图 像 能 够 以 可 视 化 的 方式 突出 图 片 中 狗 的 重要 性 。 一 幅 狗 位 于 画面 中 心 的 图 像 会 被 认为 比 狗 作为 背景 的 图 像 更 有 价值 。 





并 非 所 有 数据 集 都 拥有 最 有 价值 的 图 像 。 下 面 所 示 的 两 幅 图 像 都 来 自 Stanford Dogs 数 据 集 ， 按 照 假 设 ， 该 数据 集 本 应 突出 不 同 的 狗 的 品种 。 





= (eon Ten | | 2 
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左 图 n02113978 3480.jpg 突 出 的 是 一 条 典型 的 墨西哥 无 毛 犬 的 重要 属性 ， 而 右 图 n02113978 1030.jpg 强 调 的 是 两 个 参加 聚会 的 人 在 喜 一 条 墨西哥 无 毛 犬 。 左 图 中 
充斥 了 大 量 的 无 关 人 信息， 这 可 能 会 导致 所 训练 的 CNN 模 型 对 参加 聚会 的 人 的 面部 信息 更 为 关注 ， 而 非 墨西哥 无 毛 犬 。 类 似 这 样 的 图 像 中 可 能 会 包含 狗 ， 我 们 可 对 
其 进行 操作 ， 使 狗 而 非 人 成 为 真正 被 突出 的 对 象 。 








在 大 多 数 场景 中 ， 对 图 像 的 操作 最 好 能 在 预 处 理 阶段 完成 。 预 处 理 包 括 对 图 像 裁 蚤 、 缩 放 以 及 灰 度 调整 等 。 另 一 方面 ， 在 训练 时 对 疼 像 进行 操作 有 一 个 重要 
的 用 例 。 当 一 幅 图 像 被 加 载 后 ， 可 对 其 做 翻转 或 扭曲 处 理 ， 以 使 输入 给 网 络 的 训练 信息 多 样 化。 虽然 这 个 步骤 会 进一步 增加 处 理 时 间 ， 但 却 有 助 于 缓解 过 拟 合 现 
象 。 





TensorFlow 并 未 设计 成 一 个 图 像 处 理 框架 。 与 TensorFlow 相 比 ， 有 一 些 Python 库 〈 如 PIL 和 OpenCV) 支持 更 丰富 的 图 像 操 作 。 对 于 TensorFlow， 可 将 那些 对 训练 
CNN 十 分 有 用 的 图 像 处 理 方法 总 结 如 下 。 
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1 .裁剪 








裁 甬 会 将 图 像 中 的 东 些 区 域 移 除 ， 将 其 中 的 信息 完全 丢 弃 。 裁 前 与 蕊 slice 类 似 ， 后 者 是 将 一 个 张 量 中 的 一 部 分 从 完整 的 张 量 中 移 除 。 当 沿 茶 个 维度 存在 多 余 的 
输入 时 ， 为 CNN 对 输入 图 像 进 行 裁 芳 便 是 十 分 有 用 的 。 例 如 ， 为 减少 输入 的 尺寸 ， 可 对 狗 位 于 图 像 中心 的 图 片 进行 裁 驴 。 


sess.run(tf.image.central_crop(image, 0.1)) 


执行 上 面 的 代码 后 ， 可 得 到 输出 : 


array([[[ 3, 108, 233]]], dtype=uint8) 





这 上 段 示 例 代 人 码 利 用 了 人 fimage.central crop 将 图 像 中 10% 的 区 域 抠 出 ， 并 将 其 返回 。 该 方法 总 是 会 基于 所 使 用 的 图 像 的 中 心 返回 结果 。 








裁 甬 通常 在 预 处 理 阶段 使 用 ， 但 在 训练 阶段 ， 大 背景 也 有 用 时 ， 它 也 可 派 上 用 场 。 当 背景 有 用 时 ， 可 随机 化 裁剪 区 域 起 始 位 置 到 网 像 中 心 的 偶 移 量 来 实现 裁 


# 这 个 裁剪 方法 仅 可 接收 实 值 输入 
real image = sess.run(image) 


bounding crop = tf.image.crop_to_bounding_box( 
real image, offset_height=0, offset_width=0, 
target_height=2, target_width=1) 


sess.run(bounding_crop) 


执行 上 述 代码 ， 可 得 到 输出 : 


array([[[ 9, 0, 0]], 
[[ 0, 191, O]]], dtype=uints) 


为 从 位 于 00, 0) 的 图 像 的 左上 和 角 像素 开始 对 图 像 裁 前 ， 这 段 示 例 代 码 使 用 了 萎 image.crop to bounding box。 有 目前， 该 函数 只 能 接收 一 个 具有 确定 形状 的 张 
量 。 因 此 ， 输 入 图 像 需 要 事先 在 数据 流 图 中 运行 。 


2. 边 界 填充 





为 使 输入 图 像 符合 期 望 的 尺寸 ， 可 用 0 进行 边界 填充 。 可 利用 给 pad 函 数 完成 该 操作 ， 但 对 于 尺寸 过 大 或 过 小 的 图 像 ，TensorFlow 还 提供 了 男 外 一 个 非常 有 用 的 
尺寸 调整 方法 。 对 于 尺寸 过 小 的 图 像 ， 该 方法 会 围绕 该 图 像 的 边界 填充 一 些 灰 度 值 为 0 的 像素 。 通 常 ， 该 方法 用 于 调整 小 图 像 的 尺寸 ， 因 为 任何 其 他 调整 尺寸 的 方 
法 都 会 使 图 像 的 内 容 产 生 扭 曲 。 
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# 该 边界 填充 方法 仅 可 接收 实 值 输入 
real_image = sess.run(image) 


pad = tf.image.pad to bounding_box( 
real_image, offset_height=0, offset_width=0, 
target_height=4, target_width=4) 


sess.run(pad) 


执行 上 述 代码 ， 可 得 到 输出 : 


array([[[ 0, 0, 0], 
(255, 255, 255], 
[254, 0, 0], 

[ 0, 0, O]], 

LI 0, 191, 90], 
| 法 ,二 对 | 
[ 0, 191, ©), 

[ 0, 0, O]], 
[[254, 0, 0], 
[255, 255, 255], 
[ 0, 0, 0], 

[ 9, ©, OJ], 

[[ 0, ©, 0], 

[ 0, 0, 0], 


[ 0, 0, 0], 
[ 0, 0, 0]]], dtype=uint8) 





这 段 示例 代码 将 图 像 的 高 度 和 宽度 都 增加 了 一 个 像素 ， 所 增加 的 新 像素 的 灰 度 值 均 为 0。 对 于 尺寸 过 小 的 图 像 ， 这 种 边界 填充 方式 是 非 第 有 用 的 。 如 果 训 练 集 
中 的 图 像 存 在 多 种 不 同 的 长 宽 比 ， 便 需要 这 样 的 处 理 方法 。 对 于 那些 长 宽 比 不 一 致 的 图 像 ，TensorFlow 还 提供 了 一 种 组 合 了 pad 和 crop 的 尺寸 调整 的 便捷 方法 。 





# 这 个 边界 填充 方法 仅 可 接收 实 值 输入 
real_image = sess.run(image) 


crop_or_pad = tf.image.resize_ image with crop_or_pad( 
real_image, target_height=2, target_width=5) 


sess.run(crop_or_pad) 


执行 上 述 代 码 后 ， 可 得 到 输出 : 


array([[[ 0, 0, 0], 
[ 0, 0, 0], 
[255, 255, 255], 
[254, 0, 0], 
[ 0, 0, 0]], 
[[ 0, ©, 0], 
[ 0, 191, 0], 
[ 3, 108, 233], 
[ 0, 191, 0], 
[ 0, 0, O]]], dtype=uints) 
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3. 翻 转 
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翻转 操作 的 会 义 与 其 字面 意思 一 致 ， 即 每 个 像素 的 位 置 都 沿 水 平 或 垂直 方 癌 翻转 。 从 技术 角度 讲 ， 翻 转 是 在 沿 垂直 方 癌 翻转 时 所 采用 的 术语 。 利 用 TensorFlow 
对 图 像 执 行 翻转 操作 是 非常 有 用 的 ， 这 样 可 以 为 同一 幅 训 练 图 像 赋予 不 同 的 视角 。 例 如 ， 一 幅 左 耳 卷曲 的 澳大利亚 牧羊 犬 图 像 如 果 经 过 了 翻转 ， 便 有 可 能 与 其 他 
的 图 像 中 右 耳 卷曲 的 狗 匹 配 。 





TensorFlow 有 一 些 函 数 可 实现 垂直 翻转 、 水 平 翻转 ， 用 户 可 随意 选择 。 随 机 翻转 一 幅 图 像 的 能 力 对 于 防止 模型 对 图 像 的 翻转 版 本 产生 过 拟 合 非常 有 用 。 
top left pixels = tf.slice(image, [0, 0, 0], [2, 2, 3]) 


flip horizon = tf.image.flip_left_right(top_left_pixels) 
flip _vertical = tf.image.flip_up down(flip_ horizon) 


sess.run([top_left_pixels, flip_vertical]) 


上 述 代 码 执行 后 的 输出 如 下 : 


[array([[[ 0, 9, 9], 
(255, 255, 255]], 
[[ 0, 191, 0], 
[ 3, 108, 233]]], dtype=uint8), array([[[ 3, 108, 233], 
[ ©, 191, O]], 
[[255, 255, 255], 
[ 0, 0, 0]]], dtype=uints) ] 





这 段 示例 代码 对 一 幅 图 像 的 一 个 子 集 首先 进行 水 平 翻转 ， 然 后 进行 垂直 翻转 。 该 子 集 是 用 给 slice 选 取 的 ， 这 是 因为 对 原始 图 像 翻 转 返 回 的 是 相同 的 图 像 〈 仅 对 
这 个 例子 而 言 )。 这 个 像素 子 集 解释 了 当 图 像 发 生 翻转 时 所 发 生 的 变化 。timage.ftip_left_right 和 tfinmage.fip_up_down 痢 可 对 张 量 进行 操作 ， 而 非 仅 限于 图 像 。 这 些 函 
数 对 图 像 的 翻转 具有 确定 性 ， 要 想 实现 对 图 像 随机 翻转 ， 可 利用 男 一 组 函数 。 





top_left_pixels = tf.slice(image, [0, 0, 0], [2, 2, 3]) 


random flip _horizon = 
tf.image.random_flip_left_right(top_left_pixels) 
random flip vertical = 
tf.image.random_flip_up_down(random_flip_horizon) 


sess.run(random flip vertical) 
这 段 代码 执行 后 的 输出 为 : 


array([[[ 3, 108, 233], 
[ 0, 191, O]], 
[[255, 255, 255], 
[ 0, 0, 0]]], dtype=uints) 


这 个 例子 与 之 前 的 例子 具有 相同 的 逻辑 ， 唯 一 的 区 别 在 于 本 例 中 的 输出 是 随机 的 。 这 个 例 程 每 次 运行 时 ， 都 会 得 到 不 同 的 输出 。 有 一 个 名 称 为 seed 的 参数 可 控 
制 翻转 发 生 的 随机 性 。 


4. 饱 和 与 平衡 





可 在 互联 网 上 找到 的 图 像 通常 都 事先 经 过 了 编辑 。 例 如 ，Stanford Dogs 数 据 集中 的 许多 图 像 都 上 共有 过 高 的 饱和 度 〈 大 量 颜 色 ) 。 当 将 编辑 过 的 图 像 用 于 训练 
时 ， 可 能 会 误导 CNN 模 型 去 寻找 那些 与 编辑 过 的 图 像 有 关 的 模式 ， 而 非 图 像 本 里 所 呈现 的 内 容 。 





为 同 在 图 像 数 据 上 的 训练 提供 帮助 ，TensorFlow 实 现 了 一 些 通 过 修改 饱和 度 、 色 调 、 对 比 度 和 亮度 的 函数 。 利 用 这 些 函 数 可 对 这 些 图 像 属 性 进行 简单 的 操作 和 
随机 修改 。 对 训练 而 言 ， 这 种 随机 修改 是 非常 有 用 的 ， 原 因 与 图 像 的 随机 翻转 类 似 。 对 属性 的 随机 修改 能 够 使 CNN 精 确 巨 配 经 过 编辑 的 或 不 同 光 照 条 件 下 的 图 像 
的 茶 种 特征 。 
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example red pixel = tf.constant([254., 2., 15.]) 
adjust_brightness 
tf.image.adjust_brightness(example_red_ pixel, 0.2) 


sess.run(adjust_brightness) 


上 述 代码 执行 后 的 输出 为 : 


array([ 254.19999695, 2.20000005, 15.19999981], 
dtype=f loat32) 








这 个 例子 提升 了 一 个 以 红色 为 主 的 像素 的 灰 度 值 (增加 了 0.2) 。 不 幸 的 是 ， 在 TensorFlow 0.9 版 本 中 ， 该 方法 尚 不 支持 tfuint8 类 型 的 输入 中。 因此 ， 如 果 使 用 
的 是 TensorFlow 0.9 以 下 的 版 本 ， 且 在 预 处 理 环节 需要 对 图 像 的 灰 度 值 进行 调整 时 ， 请 尽量 避免 使 用 给 uint8 类 型 。 


adjust_contrast = tf.image.adjust_contrast(image, -.5) 
sess.run(tf.slice(adjust_contrast, [1, 0, 0], [1, 3, 3])) 


这 段 代码 执行 后 可 得 到 输出 : 


array([[[170, 71, 124], 
(168, 112, 7], 
[170, 71, 124]]], dtype=uints8) 


这 上 段 示 例 代 码 将 对 比 度 调整 了 -0.5， 这 将 生成 一 个 识别 度 相当 差 的 新 图 像 。 调 节 对 比 度 时 ， 最 好 选择 一 个 较 小 的 增 量 ， 以 避免 对 图 像 造 成 “过 曝 ”。 这 里 的 “过 
曝 ? 和 的 含义 与 神经 元 出 现 饱 和 类 似 ， 即 达到 了 最 大 值 而 无 法 恢复 。 当 对 比 度 变 化 时 ， 图 像 中 的 像素 可 能 会 呈现 出 全 白 和 全 黑 的 情形 。 














简 而 言 之 ， 人 slice 运 算 的 目的 是 突出 发 生 改 变 的 像素 。 当 运行 该 运算 时 ， 它 是 不 需要 的 。 
gray = tf.image.rgb to grayscale(image) 
sess.run(tf.slice(gray, [0, 0, 0], [1, 3, 1])) 
上 述 代 码 执行 后 的 输出 为 : 
array([[[ 0], 


[255], 
[ 76]]], dtype=uints) 





这 段 示例 代码 调整 了 图 像 中 的 色 度 ， 使 其 色彩 更 加 丰富 。 该 调整 函数 接收 一 个 delta 参 数 ， 用 于 控制 需要 调节 的 色 度 数量 。 


adjust_saturation = tf.image.adjust_saturation(image, 0.4) 


sess.run(tf.slice(adjust_saturation, [1, 0, 0], [1, 3, 3])) 
执行 上 述 代 码 后 ， 可 得 到 输出 : 


array([[[114, 191, 114], 
[141, 183, 233], 
[114, 191, 114]]], dtype=uints) 





这 段 代 码 与 调节 对 比 度 的 那 段 代码 非常 类 似 。 为 识别 边缘 ， 对 图 像 进 行 过 饱和 处 理 是 很 常见 的 ， 因 为 增加 饱和 度 能 够 突出 颜色 的 变化 。 
544 颜色 


CNN 通 常 使 用 具有 单一 颜色 的 图 像 来 训练 。 当 一 幅 岁 像 只 有 单一 颜色 时 ， 我 们 称 它 使 用 了 灰 度 颜色 空间 ， 即 单 颜色 通道 。 对 大 多 数 计算 机 视觉 相关 任务 而 


言 ， 使 用 灰 度 值 是 合理 的 ， 因 为 要 了 解 图 像 的 形状 无 须 借 助 所 有 的 颜色 信息 。 缩 减 颜 色 空 间 可 加 速 训练 过 程 。 为 描述 图 像 中 的 灰 度 ， 仅 需 一 个 单个 分 量 的 秩 1 张 量 
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即 可 ， 而 无 须 像 RGB 图 像 那样 使 用 含 3 个 分 量 的 秩 1 张 量 。 





虽然 只 使 用 灰 度 信息 有 一 些 优点 ， 但 也 必须 考虑 那些 需要 利用 颜色 的 区 分 性 的 应 用 。 在 大 多 数 计算 机 视觉 任务 中 ， 如 何 使 用 图 像 中 的 颜色 都 烦 具 挑 成 性 ， 因 
为 很 难 从 数学 上 定义 两 个 RGB 颜色 之 间 的 相似 度 。 为 在 CNN 训 练 中 使 用 颜色 ， 对 图 像 进行 颜色 空间 变换 有 时 是 非常 有 用 的 。 











1. 灰 度 
灰 度 图 具有 单个 分 量 ， 且 其 取 值 范围 与 RGB 图 像 中 的 颜色 一 样 ， 也 是 [0，255]。 


gray = tf.image.rgb to grayscale(image) 
sess.run(tf.slice(gray, [0, 0, 0], [1, 3, 1])) 


述 代 码 执行 后 的 输出 为 : 


array([[[ 0], 
[2S5]; 


[ 76]]], dtype=uint8) 


这 个 例子 将 RGB 网 像 转换 为 灰 度 图 。ttslice 运 算 提 取 了 最 上 一 行 的 像素 ， 并 得 看 其 颜色 是 否 发 生 了 变化 。 这 种 灰 度 变换 是 通过 将 每 个 像素 的 所 有 颜色 值 取 平 
均 ， 并 将 其 作为 灰 度 值 实现 的 。 


2.HSV 空 间 


色 度 、 饱 和 度 和 灰 度 值 构成 了 HSV 颜 色 空 间 。 与 RGB 空间 类 似 ， 这 个 颜色 空间 也 是 用 合 3 个 分 量 的 秩 1 张 量 表 示 的 。HSV 空 间 所 度量 的 内 容 与 RGB 空间 不 同 ， 它 
所 度量 的 是 图 像 的 一 些 更 为 贴近 人 类 感知 的 属性 。 有 时 HSV 也 被 称 为 HSB， 其 中 字母 B 表 示 亮 度 值 。 





hsv = 
tf.image.rgb to hsv(tf.image.convert image dtypel(image, 
tf .float32)) 


sess.run(tf.slice(hsv, [0, 0, 0], [3, 3, 3])) 


执行 上 述 代 码 后 ， 可 得 到 输出: 


array([[[ 0., 0., 0.], 
E Ti he Bel, 
[ 0., 1., 0.99607849]], 
[[ ©.33333334, 1., 0.74901962], 
[ 0.59057975, 0.98712444, 0.91372555], 
[ ©.33333334, 1., ©.74901962]], 
[ 0., 1., 0.99607849], 
0., 0., 1.], 
0., 0., 0.]]], dtype=float32) 


ma en" er" 


3.RGB |i] 


到 目前 为 止 ， 所 有 的 示例 代码 中 使 用 的 都 是 RGB 颜色 空间 。 它 对 应 于 一 个 含 3 个 分 量 的 秩 1 张 量 ， 其 中 红 、 绿 和 和 蓝 的 取 值 范围 均 为 [0，255]。 大 多 数 图 像 本 号 就 
位 于 RGB 赢 色 空 间 中 ， 但 考虑 到 有 些 图 像 可 能 会 来 自 其 他 颜色 空间 ，TensorFlow 也 提供 了 一 些 颜 色 空 间 转 换 的 内 置 函 数 。 


rgb hsv = tf.image.hsv_to_rgb(hsv) 
rgb_grayscale = tf.image.grayscale to rgb(gray) 





这 段 示例 代码 非常 简单 ， 只 是 从 灰 度 空间 转换 到 RGB 空间 并 无 太 大 的 实际 意义 。RGB 图 像 需要 三 种 颜色 ， 而 灰 度 图 像 只 需要 一 种 颜色 。 当 转换 《〈 灰 度 到 RGB) 
发 生 时 ，RGB 中 每 个 像素 的 各 通道 都 将 被 与 灰 度 图 中 对 应 像 系 的 灰 度 值 填充 。 





LAB 空 间 


TensorFlow 并 未 为 LAB 颜 色 空 间 提供 原生 文 持 。 它 是 一 种 有 用 的 颜色 空间 ， 因 为 与 RGB 相 比 ， 它 能 够 映射 大 量 可 感知 的 颜色 。 虽 然 TensorFlow 并 未 为 它 提 供 原 
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生 支 持 ， 但 它 却 是 一 种 经 常 在 专业 场合 使 用 的 颜色 空间 。Python 库 pythor-colormath 为 LAB 和 其 他 本 书 未 提 及 的 颜色 空间 提供 了 转换 支持 。 





使 用 LAB 闫 色 空间 最 大 的 好 处 在 于 与 RGB 或 HSV 空 间 相 比 ， 它 对 颜色 差异 的 映射 更 贴近 人 类 的 感知 。 在 LAB 闫 色 空 间 中 ， 两 个 颜色 的 欧 氏 距离 在 条 种 程度 上 能 
够 反映 人 类 所 感受 到 的 这 两 种 颜色 的 差异 。 


5. 图 像 数 据 类 型 转换 


在 这 些 例子 中 ， 为 说 明 如 何 修改 网 像 的 数据 类 型 ，ttto_foat 被 多 次 用 到 。 对 于 某 些 例子 ， 使 用 这 种 方式 是 可 以 的 ， 但 TensorFlow 还 提供 了 一 个 内 置 函数 ， 用 于 
当 图 像 数据 类 型 发 生变 化 时 恰当 地 对 像素 值 进行 比例 变换 。 攻 image.convert iamge dtype (image, dtype, saturate—Fabe) 是 将 图 像 的 数据 类 型 从 tfuint8 更 改 为 萎 toat 的 
便捷 方法 。 


[1] https://www.tensorflow.org/versions/master/how_tos/reading_data/index.htmi#batching 
[2] A TensorFlow 10.0 起 ， 该 函数 已 文 持 给 uint8 类 型 的 输入 。 一 一 译 者 注 
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5.5 ”CNN 的 实现 





利用 TensorFlow 实 现 目 标识 别 与 分 类 要 求 对 卷 积 (对 CNN) 、 常 见 层 〈 非 线性 、 池 化 、 全 连接 等 ) 、 图 像 加 载 、 图 像 操 作 和 颜色 空间 相关 的 基础 知识 有 所 了 
解 。 当 掌握 了 这 些 内 容 后 ， 便 有 可 能 利用 TensorFlow 构 建 一 个 用 于 图 像 识 别 与 分 类 的 CNN 模 型 。 在 这 种 情况 下 ， 训 练 数 据 来 自 于 Stanford 的 一 个 包含 了 许多 狗 及 其 品 
种 标签 的 数据 集 。 我 们 需要 依据 这 些 图 像 训 练 一 个 网 络 ， 然 后 再 评估 它 对 狗 的 品种 的 预测 准确 性 。 


我 们 的 网 络 架 构 采 取 了 AlexKrizhevsky 的 AlexNet 的 简化 版 本 ， 但 并 未 使 用 AlexNet 的 所 有 层 。AlexNet 架 构 在 本 章 最 开始 已 做 过 介绍 ， 它 是 ILSVRC2012 挑 战 赛 的 冠 
军 。 这 个 网 络 使 用 了 本 章 介 绍 过 的 层 和 技术 ， 与 TensorFlow 提 供 的 CNN 入 门 教程 也 非常 类 似 。 


conv layer 1 | conv layer 2 
Sa CS} om 
Dogs Dataset 
(250 151 1) pool layer 1 | pool layer 2 
(3 63 38 32) | | (3 321964) 


较 低 的 维 数 








较 高 的 维 数 





本 贡 所 介绍 的 网 络 包含 每 层 之 后 的 输出 TensorShape。 这 些 层 按照 自 左 向 右 、 自 上 向 下 的 顺序 被 依次 读 取 ， 且 存在 关联 的 层 被 分 为 一 组 。 当 输入 经 过 网 络 时 ， 其 
高 度 和 宽度 都 会 减 小 ， 而 其 深度 会 增加 。 深 度 值 的 增加 减少 了 使 用 该 网 络 所 需 的 计算 量 。 





5.5.1 Stanford Dogs 数 据 集 


用 于 训练 该 模型 的 数据 集 可 从 Stanford 的 计算 机 视觉 站 点 http:/vision.stanford.edu/aditya86/ImageNetDogs/ 下 载 。 训 练 模型 时 需要 事先 下 载 相 关 的 数据 。 下 载 完 包含 所 
有 图 像 的 压缩 文件 后 ， 需 要 将 其 解压 至 一 个 新 的 名 为 imagenet-dogs 的 目录 下 ， 该 目录 应 当 与 用 于 构建 模型 的 代码 位 于 同一 路 径 下 。 


由 Stanford 提 供 的 压缩 文件 包含 被 组 织 为 120 个 不 同 品种 的 狗 的 图 像 。 该 模型 的 目标 是 将 这 个 数据 集中 80% 的 图 像 用 于 训练 ， 而 用 其 余 20% 做 测试 。 如 果 这 是 一 个 
产品 模型 ， 则 还 应 预 留 一 些 原始 数据 做 交叉 验证 。 为 验证 模型 的 准确 性 ， 区 叉 验 证 是 一 个 有 用 的 步骤 ， 但 该 模型 的 设计 初衷 只 是 为 说 明 这 个 过 程 ， 而 非 出 于 完整 性 
HEIE. 








这 个 数据 压缩 包 遵 循 了 ImageNet 的 实践 原则 。 每 个 狗 品 种 都 对 应 一 个 类 似 于 n02085620-Chihuahua 的 文件 夹 ， 其 中 目录 名 称 的 后 一 半 对 应 于 狗 品 种 的 英语 表述 
(Chihuahua) 。 在 每 个 目录 中 ， 都 有 大 量 属 于 该 品种 的 狗 的 图 像 ， 每 幅 图 像 都 为 JPEG 格 式 (RGB)〉 且 尺寸 各 异 。 各 图 像 尺寸 不 一 是 一 种 挑战 ， 因 为 TensorFlow 希 望 
各 张 量 都 具有 相同 的 维 数 。 





5.5.2 ”将 图 像 转 为 TFRecord 文 件 





被 组 织 在 某 个 目录 中 的 原始 图 像 无 法 直接 用 于 训练 ， 因 为 这 些 图 像 尺寸 不 一 ， 且 相应 的 品种 标签 也 不 在 图 像 文件 中 。 将 图 像 提前 转换 为 TFRecord 文 件 将 有 助 于 
加 速 训练 ， 并 简化 与 图 像 标签 的 匹配 。 另 一 个 好 处 是 与 训练 和 测试 有 关 的 图 像 可 以 事先 分 离 ， 这 样 当 训 练 开始 时 ， 就 可 利用 检查 点 文件 对 模型 进行 不 间断 的 测试 。 














转换 图 像 数 据 格式 时 需要 将 它们 的 颜色 空间 变 为 灰 度 空间 ， 将 图 像 尺寸 修改 为 统一 尺寸 ， 并 将 标签 依附 于 每 幅 图 像 。 在 训练 开始 前 ， 这 种 转换 应 当 仅 进行 一 
次 ， 通 闸 它 会 花费 较 长 的 时 间 。 





import glob 


image_filenames = glob.glob("./imagenet-dogs/n02*/*.jpg") 


image_filenames[0:2] 


执行 上 述 代 码 后 ， 可 得 到 输出 : 


[' ./imagenet -dogs/n02085620-Chihuahua/n02085620_10074. jpg', 
' . /imagenet -dogs/n02085620-Chihuahua/ 
n02085620_10131.jpg' ] 


这 个 例子 展示 了 该 文档 的 结构 。 利 用 gob 模 块 可 枚 举 指定 路 径 下 的 目录 ， 从 而 显示 出 数据 集中 的 文件 结构 。 文 件 名 中 的 8 个 数字 对 应 于 ImageNet 中 每 个 类 别 的 
WordNet ID。ImageNet 网 站 拥有 一 个 可 依据 WordNet DE WRAT AN Aar. Pa, HAA Chihuahua CEEE) 品种 的 样本 ， 可 通过 下 列 网 址 访问 Pttpywww.image- 


net.org/synset? wnid=n02085620. 
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from itertools import groupby 
from collections import defaultdict 


training _dataset = defaultdict(list) 
testing dataset = defaultdict(list) 


# 将 文件 名 分 解 为 品种 和 相应 的 文件 名 ， 品 种 对 应 于 文件 夹 名 称 
image filename with breed = map(Lambda filename: 
(filename.split("/")[2], filename), image filenames) 


# 依据 品种 (上述 返回 的 元 组 的 第 0 个 分 量 ) 对 图 像 分 组 

for dog breed, breed images in 

groupby(image filename with breed, Lambda x: x[0]): 
# 枚 淮 每 个 品种 的 图 像 ， 并 将 大 致 20% 的 图 像 划 入 测试 集 


for i, breed image in enumerate(breed_images): 
FtS § == §: 
testing _dataset[dog_breed].append(breed_image[1]) 
else: 


training _dataset[dog breed].append(breed_image[1]) 


# 检查 每 个 品种 的 测试 图 像 是 否 至 少 有 全 部 图 像 的 18%o 
breed training count = len(training dataset[dog breed ] ) 
breed testing count = len(testing dataset[dog_breed ] ) 


assert round(breed_testing_count / (breed_training_count 


+ breed _testing_count), 2) > 0.18, "Not enough testing 
images." 


1X Bon RS A eA VR C'./imagenet-dogs/n02085620-Chihuahua/n02085620_10131.jpg) 组 织 到 了 两 个 与 每 个 品种 相关 的 字典 中 ， 这 些 字典 中 包含 了 属于 各 品种 
的 所 有 图 像 。 现 在 ， 每 个 字典 就 按照 下 列 格式 包含 了 所 有 的 Chihuahua (吉娃娃 〉 图 像 : 





training dataset["n02085620-Chihuahua"| = 
["n02085620 10131.jpg", ...] 





将 各 品种 的 狗 的 图 像 组 织 到 这 些 字典 中 能 够 简化 选择 每 种 类 型 的 图 像 并 对 其 归 类 的 过 程 。 在 预 处 理 阶段 ， 所 有 品种 的 狗 的 图 像 都 会 被 依次 般 历 ， 并 依据 列表 中 
的 文件 名 被 打开 。 
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def write_records file(dataset, record location): 


nnn 


用 dataset 中 的 图 像 填 充 一 个 TFRecord 文 件 ， 并 将 其 类 别 包含 进 来 


dataset : dict(list) 
这 个 字典 的 键 对 应 于 其 值 中 文件 名 列表 对 应 的 标签 


record _ Location : str 
存储 TFRecord 输 出 的 路 径 


nnn 


writer = None 


# 枚 举 dataset， 因 为 当前 索引 用 于 对 文件 进行 划分 ， 每 隔 100 幅 图 像 ， 训 练 样 本 的 信息 就 被 写 入 到 一 个 
新 的 TFRecord 文 件 中 ， 以 加 快 写 操 作 的 进程 


current_index = 0 
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for breed, images_filenames in dataset.items(): 
for image_filename in images filenames: 
if current_index % 100 == 
if writer: 
writer.close() 


record filename = "{record_Location}- 
{current_index}.tfrecords"”.format( 
record _location=record_ location, 
current_index=current_index) 


writer = 


tf.python_io.TFRecordwWriter(record filename) 
current_index += 1 


image _ file = tf.read_file(image_filename) 


# 在 ImageNet 的 狗 的 图 像 中 ， 有 少量 无 法 被 TensorFlow 识 别 为 ]PEG 的 图 像 利用 try/catch 
可 将 这 些 图 像 忽 略 
try: 
image = tf.image.decode jpeg(image_ file) 
except: 
print(image_filename) 
continue 


H 转换 为 欢度 图 可 减少 处 理 的 计算 量 和 内 存 占 用 ， 但 这 并 不 是 必需 的 
grayscale_image = 
tf.image.rgb_to_grayscale(image) 
resized image = 
tf.image.resize_images(grayscale image, 250, 151) 


# 这 里 之 所 以 使 用 tf.cast， 是 因为 虽然 尺寸 更 改 后 的 图 像 的 数据 类 型 是 浮 点 型 ,但 RGB 值 尚未 
转换 到 [0, 1) 区 间 内 
image bytes = sess.run(tf.cast(resized image, 
tf.uint8)).tobytes() 


# 将 标签 按 字 符 串 存储 较 高 效 ， 推 荐 的 做 法 是 将 其 转换 为 整数 索引 或 读 热 编码 的 秩 1 张 量 
# https://en.wikipedia. org/wiki/One-hot 
image label = breed.encode("utf-8") 


example = 
tf.train.Example(features=tf.train.Features(feature={ 
‘label’: 
tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_Label])), 
‘image’: 
tf.train.Feature(bytes_list=tf.train.BytesList(value=[image_bytes])) 
})) 


writer.write(example.SerializeToString()) 
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writer.close() 


write_records file(testing dataset, "./output/testing-images/ 
testing-image" ) 

write_records file(training dataset, "./output/training- 
images/training-image" ) 


这 段 示 例 代 码 完成 的 任务 包括 : 打开 每 幅 图 像 ， 将 其 转换 为 灰 度 图 ， 调 整 其 尺寸 ， 然 后 将 其 添加 到 一 个 TFRecord 文 件 中 。 这 个 逻辑 与 之 前 的 例子 基本 一 致 ， 唯 
一 的 区 别 是 这 里 使 用 了 共 image.resize_images 函 数 。 这 个 尺寸 调整 方法 会 将 所 有 图 像 变 为 相同 的 尺寸 ， 即 便 会 有 扭曲 发 生 。 例 如 ， 假 设 有 一 幅 纵 向 的 图 像 和 一 幅 横 向 的 
图 像 ， 知 用 这 段 代 码 调 整 两 者 的 尺寸 ， 则 横向 图 像 的 输出 将 会 产生 扭曲 。 这 种 扭曲 之 所 以 发 生 ， 是 因为 共 image.resize_ images 并 不 考虑 图 像 的 长 宽 比 《宽度 与 高 度 的 比 
值 ) 。 为 了 对 一 组 图 像 进行 恰当 的 斥 寸 调整， 裁 甬 或 边界 填充 是 一 种 推荐 的 方法 ， 因 为 这 些 方式 能 够 保持 图 像 的 纵横 比 ， 不 至 于 使 图 像 产生 扭曲 。 


55.3 ”加 载 图 像 


一 旦 测试 集 和 训练 集 被 转换 为 TFRecord 格 式 ， 便 可 按照 TFRecord 文 件 而 非 JPEG 文 件 进行 读 取 。 我 们 的 目标 是 每 次 加 载 少量 图 像 及 相应 的 标签 。 


filename queue = tf.train.string_input_producer( 
tf.train.match filenames once("./output/training-images/ 

*.tfrecords" )) 

reader = tf.TFRecordReader() 

_, serialized = reader.read(filename queue) 


features = tf.parse_single_example( 
serialized, 
features={ 
'label': tf.FixedLenFeature([], tf.string), 
'image': tf.FixedLenFeature([], tf.string), 
}) 


record image = tf.decode raw(features['image'], tf.uint8) 


# 修改 图 像 的 形状 有 助 于 训练 和 输出 的 可 视 化 
image = tf.reshape(record_image, [250, 151, 1]) 


label = tf.cast(features['label'], tf.string) 

min_after_dequeue = 10 

batch_size = 3 

Capacity = min_after_dequeue + 3 * batch size 

image batch, label batch = tf.train.shuffle_batch( 
[image, label], batch _size=batch_size, 

Capacity=capacity, min_after_dequeue=min_after_dequeue) 


这 段 示 例 代码 通过 匹配 所 有 在 训练 集 所 在 目录 下 找到 的 TFRecord 文 件 而 加 载 训练 图 像 。 每 个 IFRecord 文 件 中 都 包含 了 多 幅 图 像 ， 但 芷 parse_ single_ example} RM 
该 文件 中 提取 单个 样本 。 之 前 讨论 过 的 批 运算 可 用 于 同时 训练 多 幅 图 像 。 对 多 幅 图 像 进行 批 处 理 非常 有 用 ， 因 为 这 些 运 算 既 可 对 多 幅 图 像 进 行 处 理 ， 也 可 对 单 幅 图 
像 进行 处 理 。 批 处 理 时 ， 必 须要 满足 的 条 件 是 系统 拥有 足够 的 内 存 。 








当 可 用 的 图 像 都 加 载 到 内 存 中 后 ， 接 下 来 的 步 又 便 是 创建 用 于 训练 和 测试 的 模型 。 


55.4 ”模型 





这 里 所 使 用 的 模型 与 前 面 的 MNIST 卷 积 网 络 的 例子 非常 类 似 ， 也 常 出 现在 介绍 卷 积 神经 网 络 的 TensorFlow 入 门 教程 中 。 该 模型 的 架构 虽然 简单 ， 但 对 于 解释 图 
像 分 类 与 识别 中 所 使 用 的 不 同 技术 却 非常 有 价值 。 更 复杂 的 模型 可 参考 AlexNet 的 设计 ， 它 引入 了 更 多 的 卷 积 层 。 





ww ai bbt. com THAAOAOAA 





# 将 图 像 转换 为 灰 度 值 位 于 [0,1) 的 浮 点 类 型 ， 以 与 Convolution2d 期 望 的 输入 匹配 
float image batch = 
tf.image.convert image dtype(image batch, tf.float32) 


conv2d_layer_one = tf.contrib. Layers.convolution2d( 
float image batch, 


num_output_channels=32, # 要 生成 的 滤波 器 数量 
kernel_size=(5,5), # 滤波 器 的 宽度 和 高 度 


activation_fn=tf.nn.relu, 
weight_init=tf.random_normal, 
stride=(2, 2), 
trainable=True) 
pool_layer_one = tf.nn.max_pool(conv2d_lLayer_one, 
ksize=[2,.2, 2, il. 
strides=[1, 2, 2, 1], 
padding='SAME' ) 


# 注意 ， 卷 积 输出 的 第 1 维和 最 后 一 维 未 发 生 改 变 ， 但 中 间 的 两 维 发 生 了 变化 
conv2d_lLayer_one.get_shape(), pool_layer_one.get_shape() 


这 段 代 码 执 行 后 ， 可 得 到 输出 : 


(TensorShape([Dimension(3), Dimension(125), Dimension(76), 
Dimension(32)]), 
TensorShape([Dimension(3), Dimension(63), Dimension(38), 
Dimension(32)])) 





该 模型 的 第 1 层 是 利用 芋 contrib.layers.convolution2d 创 建 的 。 值 得 注意 的 是 weight init 被 设置 为 正 态 随机 值 ， 这 意味 着 第 一 组 滤波 器 填充 了 服从 正 态 分 布 的 随机 数 
(A TensorFlow 0.9 起 ， 该 参数 被 重 命名 为 weights initializer) 。 这 些 滤波 器 被 设置 为 trainableg， 以 便当 将 信息 输入 给 网 络 时 ， 这 些 权 值 能 够 调整 ， 以 提高 模型 的 准确 


当 将 卷 积 运用 于 图 像 之 后 ， 利 用 一 个 max _ pool 运算 将 输出 降 采 样 。 该 运算 之 后 ， 由 于 在 池 化 运算 中 使 用 的 ksize 和 strides， 卷 积 的 输出 形状 减 半 。 这 里 输出 形状 的 
减 小 ， 并 不 改变 滤波 器 的 数量 输出 通道 ) 或 图 像 批 数据 的 尺寸 。 减 少 的 分 量 与 图 像 (滤波 器 的 高 有 度 和 宽度 有 关 。 
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conv2d Layer two = tf.contrib.layers.convolution2d( 
pool_Layer_one, 
num_output_channels=64, # 更 多 的 输出 通道 意味 着 滤波 器 数量 的 增加 


kernel_size=(5,5), 

activation _fn=tf.nn.relu, 
weight_init=tf.random_normal, 
stride=(1, 1), 
trainable=True) 


pool layer two = tf.nn.max_pool(conv2d_lLayer_two, 
KSive-l as 2; a 2. 
strides=[3, 2, 2, 2], 
padding='SAME' ) 


conv2d layer two.get shape(), pool_layer_two.get_shape() 


执行 上 述 代码 后 ， 可 得 到 输出 : 


(TensorShape([Dimension(3), Dimension(63), Dimension(38), 
Dimension(64)]), 
TensorShape([Dimension(3), Dimension(32), Dimension(19), 
Dimension(64) ])) 


与 第 1 层 相 比 ， 第 2 层 改 动 很 小 ， 唯 一 的 区 别 在 于 滤波 器 的 深度 。 现 在 滤波 器 的 数量 变 为 第 一 层 的 2 倍 ， 同 时 减 小 了 图 像 的 高 度 和 宽度 。 多 个 卷 积 和 池 化 层 连续 地 
减少 了 输入 的 高 度 和 宽度 ， 同 时 进一步 增加 了 深度 。 








此 时 ， 可 进一步 增加 疮 积 和 池 化 步 又 。 在 许多 染 构 中 ， 卷 积 层 和 池 化 层 都 超过 5 层 。 最 复 淋 的 架构 需要 的 训练 和 调试 时 间 也 更 长 ， 但 它们 能 够 四 配 更 多 更 复杂 的 
模式 。 在 本 例 中 ， 为 解释 卷 积 网 络 的 基本 原理 ， 使 用 两 个 卷 积 层 和 池 化 已 经 足够 了 。 


被 处 理 的 张 量 仍然 相当 复杂 ， 接 下 来 的 步骤 是 将 图 像 中 的 每 个 点 都 与 输出 神经 元 建立 全 连接 。 由 于 在 本 例 中 ， 后 面 要 使 用 softmax， 因 此 全 连接 层 需要 修改 为 二 
阶 张 量 。 张 量 的 第 1 维 将 用 于 区 分 每 幅 图 像 ， 而 第 2 维 对 应 于 每 个 输入 张 量 的 秩 1 张 量 。 





flattened layer two = tf.reshape( 
pool_layer_two, 


[ 


batch_size, # image_batch 中 的 每 幅 图 像 
-1 # 输入 的 其 他 所 有 维 
]) 
flattened_layer_two.get_shape() 
执行 上 述 代码 后 ， 可 得 到 输出 : 


TensorShape([Dimension(3), Dimension(38912) ]) 


tfreshape 拥 有 一 个 特殊 值 ， 其 可 用 于 指示 和 使 用 其 余 所 有 维 。 在 这 段 示 例 代 码 中 ，-1 用 于 将 最 后 一 个 池 化 层 调整 为 一 个 巨大 的 秩 1 张 量 。 


池 化 层 展开 后 ， 便 可 与 将 网 络 当前 状态 与 所 预测 的 狗 的 品种 关联 的 两 个 全 连接 层 进行 整合 。 
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# Weight_init 参 数 也 可 接收 一 个 可 调用 参数 ， 这 里 使 用 一 个 lambda 表 达 式 返回 了 一 个 截断 的 正 态 分 布 
# 并 指定 了 该 分 布 的 标准 差 
hidden layer _ three = tf.contrib. Layers. fully_connected( 
flattened Layer_two ， 
SiE, 
weight_init=lambda i, dtype: tf.truncated_normal([38912, 
512], stddev=0.1), 
activation_fn=tf.nn.relu 


# 对 一 些 神经 元 进行 dropout 处 理 ， 削 减 它们 在 模型 中 的 重要 性 
hidden layer three = tf.nn.dropout(hidden_Layer_three, 0.1) 


# 输出 是 前 面 的 层 与 训练 中 可 用 的 120 个 不 同 的 狗 的 品种 的 全 连接 
final_fully_connected = tf.contrib.layers.fully connected( 
hidden layer three, 
120, # ImageNet Dogs 数 据 集 中 狗 的 品种 数 
weight_init=Lambda i, dtype: tf.truncated normal([512, 
120], stddev=0.1) 


) 
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寸 ， 这 些 滤 波 器 之 后 义 会 与 一 个 品种 的 狗 标 签 ) 进行 匹配 。 这 项 技术 减少 了 训练 和 测试 一 个 网 络 所 需 的 计算 量 ， 同 时 使 输出 更 具 一 般 性 。 


55.5 训练 
一 旦 模型 做 好 了 训练 的 准备 ， 最 后 的 步骤 便 与 本 书 前 面 的 章节 所 讨论 的 过 程 完全 一 致 。 依 据 模 型 对 输入 到 训练 优化 器 〈 作 用 是 优化 每 层 的 权 值 ) 的 训练 数据 的 
真实 标签 和 模型 的 预测 结果 计算 模型 的 损失 。 这 个 优化 过 程 会 经 历数 次 迭代 ， 每 次 迭代 时 都 试图 提升 模型 的 准确 率 。 


对 于 该 模型 ， 有 一 点 需要 注意 ， 那 就 是 在 训练 过 程 中 ， 大 部 分 分 类 函数 〈tftnnsofimax) 都 要 求 标签 为 数值 类 型 。 在 介绍 从 TFRecord 文 件 加 载 图 像 的 那 一 节 中 已 
经 强调 过 这 一 点 。 在 本 例 中 ， 每 个 标签 都 是 一 个 类 似 于 n02085620-Chihuahua 的 字符 串 。 由 于 ttnn.sofimax 无 法 直接 使 用 这 些 字符 串 ， 所 以 需要 将 每 个 标签 转换 为 一 个 独 
一 无 二 的 数字 。 将 这 些 标签 转换 为 整数 表示 应 当 在 预 处 理 阶 段 进行 。 





对 于 本 数据 集 ， 每 个 标签 都 被 转换 为 一 个 代表 包含 所 有 狗 的 品种 的 列表 中 名 称 索 引 的 整数 。 完 成 该 任务 有 多 种 方法 。 在 本 例 中 ， 将 使 用 一 个 新 的 TensorFlow 工 具 
运算 tmap fh. 


import glob 


# 找到 位 于 imagenet-dogs 路 径 下 的 所 有 目录 名 (n02085620-Chihuahua, ...) 
labels = list(map(lambda c: c.split("/")[-1], glob.glob("./ 
imagenet-dogs/*"))) 


# 匹配 每 个 来 自 label_batch 的 标签 并 返回 它们 在 类 别 列 表 中 的 索引 
train labels = tf.map fn(Lambda l: tf.where(tf.equal(labels, 
1))[0,0:1][0], label_batch, dtype=tf.int64) 


这 上 段 示 例 代 码 使 用 了 两 种 不 同形 式 的 map 运 算 。 第 一 种 形式 的 map 用 于 依据 一 个 目录 列表 创建 一 个 仅 包含 狗 的 品种 名 的 列表 。 第 二 种 形式 的 map 是 给 map fh, C 
一 个 TensorFlow 和 运算 ， 可 用 指定 的 函数 对 数据 流 图 中 的 张 量 进行 映射 。 萎 map 全 用 于 生成 一 个 仅 包 合 每 个 标签 在 所 有 类 标签 构成 的 列表 中 的 索引 的 秩 1 张 量 。 这 
样 ，tfnn.softmax 便 可 利用 这 些 独 一 无 二 的 整数 对 狗 的 品种 进行 预测 。 





5.5.6 ”用 TensorBoard 调 试 滤波 器 
CNN 拥 有 多 个 可 调整 的 部 分 ， 它 们 在 训练 阶段 可 能 会 引发 一 些 问 题 ， 从 而 导致 模型 的 准确 率 较 差 。 在 调试 CNN 中 的 问题 时 ， 通 稍 可 从 观察 滤波 器 〈 卷 积 核 ) 在 
每 轮 迭 代 后 的 变化 入 手 。 当 网 络 试图 依据 训练 方法 学 习 最 精确 的 一 组 权重 时 ， 滤 波 器 中 的 每 个 权 值 都 会 持续 不 断 地 发 生 改 变 。 


和 于 一 个 设计 良好 的 CNN 中 ， 当 第 一 个 卷 积 层 开始 工作 时 ， 输 入 权 值 被 随机 初始 化 (在 本 例 中 使 用 了 weight init=tfrandom normal) 。 这 些 权 值 通过 一 幅 图 像 激活 ， 
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且 激 活 函数 的 输出 《特征 图 ) 也 是 随机 的 。 可 将 特征 图 作为 图 像 可 视 化 ， 输 出 的 外 观 与 原始 图 像 类 似 ， 并 被 施加 了 静 力 〈static) 。 藤 力 是 由 所 有 权 值 的 随机 激发 所 
导致 的 。 经 过 多 轮 夫 代 之 后 ， 权 值 不 断 地 被 调整 以 拟 合 训练 反馈 ， 每 个 滤波 器 都 趋 于 一 致 。 当 网 络 收敛 时 ， 各 个 滤波 器 都 与 从 图 像 中 能 够 找到 的 不 同 的 细小 模式 非 
常 类 似 。 下 图 展示 的 是 一 幅 作 为 训练 数据 的 尚未 经 过 第 一 个 卷 积 层 的 原始 灰 度 图 像 。 








0 20 40 60 80 100 120 140 
一 幅 作 为 训练 数据 的 、 尚 未 经 过 第 一 个 卷 积 层 的 原始 灰 度 图 像 


下 面 再 给 出 一 个 由 第 1 个 卷 积 层 输出 的 特征 图 ， 它 突出 了 输出 的 随机 性 。 





一 个 突出 了 输出 的 随机 性 的 由 第 1 个 卷 积 层 输出 的 特征 图 


调试 CNN 时 需要 能 够 熟练 使 用 这 些 滤波 器 。 截 至 本 书 撰写 之 时 ，TensorBoard 尚 未 提供 任何 显示 滤波 器 或 特征 图 的 内 置 支持 。 可 利用 tfimage summary 运 算得 到 训 
练 后 的 滤波 器 和 所 生成 的 特征 图 的 简单 视图 。 为 数据 流 图 添加 一 个 图 像 概要 输出 image summary output) 能够 对 所 使 用 的 滤波 器 和 通过 将 它们 运用 于 输入 图 像 而 得 到 
的 特征 图 获得 整体 性 的 了 解 。 





-个 值得 一 提 的 Jupyter Notebook 扩 展 是 TensorDebugger， 它 目前 尚 处 在 开发 初期 。 该 扩展 拥有 一 种 能 够 在 迭代 中 以 GIF 动 画 形 式 查 看 滤波 费 变 化 的 功能 。 
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5.6 本章 小 结 





卷 积 神经 网 络 是 一 种 非常 有 用 的 神经 网 络 架 构 ， 在 TensorFlow 中 实现 这 种 架构 只 需要 编写 极 少量 的 代码 。 虽 然 在 设计 时 它们 
对 图 像 给予 了 关注 ， 但 CNN 并 不 局 限于 图 像 这 一 种 输入 。 卷 积 可 运用 于 从 音乐 到 医药 的 多 个 行业 ， 且 在 不 同行 业 中 应 用 CNN 的 
方式 都 是 类 似 的 。 目 前 ，TensorFlow 是 为 2D 卷 积 设计 的 ， 但 利用 TensorFlow 对 高 维 输入 进行 卷 积 也 是 有 可 能 的 。 











虽然 CNN 理 论 上 可 以 运用 于 自然 语言 数据 《文本 ) ， 但 它 却 并 不 是 为 这 种 类 型 的 输入 设计 的 。 文 本 输入 通常 存储 在 
SparseTensor 中 ， 其 中 输入 的 大 部 分 分 量 均 为 0。CNN 是 为 使 用 稠密 的 输入 设计 的 ， 其 中 的 每 个 值 都 是 重要 的 ， 且 输入 的 大 部 分 分 
量 狠 非 0。 使 用 文本 数据 非常 有 挑战 性 ， 而 这 正 是 下 一 半 所 要 解决 的 问题 。 
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Or ”循环 神经 网 络 与 目 然 语 言 处 理 





在 上 一 章 中 ， 我 们 学 习 了 如 何 对 静态 图 像 进行 分 类 。 这 是 机 器 学 习 中 很 大 的 一 个 应 用 领域 ， 但 机 器 学 习 的 研究 内 容 绝 不 仅仅 
局 限于 此 。 本 章 将 探讨 序列 模型 〈sequential model) 。 这 些 模型 的 强大 之 处 在 于 借助 它们 可 对 序列 输入 进行 分 类 或 标记 ， 生 成 文 
本 序列 或 将 一 个 序列 转换 为 男 一 个 序列 。 











然而 ， 我 们 在 本 章 所 要 学 习 的 内 容 与 静态 分 类 和 回归 并 无 任何 不 同 。 循 环 神经 网 络 提供 了 一 些 构件 ， 可 以 很 好 地 切入 全 连接 
层 和 郑 积 层 的 工具 集 。 下 面 首先 介绍 相关 基础 知识 。 
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6.1 循环 神经 网 络 简介 


6.1.1 时序 的 世界 








许多 真实 问题 本 质 上 都 是 序列 化 的 (sequential) 。 上 自然 语言 处 理 (NLP) 中 几乎 所 有 的 问题 都 是 序列 化 的 。 例 如 ， 段 落 是 由 句子 构成 的 序列 ， 而 单词 是 字 
符 构 成 的 序列 。 与 之 密切 相关 的 是 首 视 频 片 段 ， 它 们 都 是 随时 间 变 化 的 帧 序列 ， 甚 至 股票 价格 也 仅 在 沿 时 间 轴 《如 果 有 的 话 ) 进行 分 析 时 才 有 意义 。 





在 所 有 这 些 应 用 中 ， 观 测 的 顺序 非常 重要 。 例 如 ， 句 子 “] had cleaned my car 可 以 修改 为 Thad my car cleaned”， 含 义 就 从 原来 的 ' 我 已 经 洗 完 车 了 ' 变 为 ' 我 已 
安排 其 他 人 洗 完 车 ” 在 口语 中 ， 这 种 时 序 的 依赖 关系 更 为 突出 ， 因 为 一 些 单词 含义 相去 甚 远 但 发 音 却 可 能 非常 相近 ， 如 “Wreck a nice beachh KF +5 “recognize 
speech” 非 常 相似 ， 单 词 必 须 从 语 境 中 进行 重 构 。 











如 果 从 这 个 视角 审视 前 馈 神 经 网 络 〈 包 括 卷 积 神经 网 络 ) ， 便 会 及 现 它们 的 局 限 性 非常 大 。 那 些 网 络 都 是 在 单 次 前 馈 中 对 到 来 的 数据 进行 处 理 ， 且 假定 所 
有 的 输入 部 是 独立 的 ， 因 此 会 将 数据 中 强 涵 的 许多 模式 丢失 。 虽 然 可 以 对 输入 进行 长 度 填 充 ， 然 后 将 整个 序列 送 入 网 络 ， 但 这 种 做 法 并 未 很 好 地 捕捉 到 序列 的 
本 质 。 





循环 神经 网 络 (recurrent neural network, RNN) 是 一 类 对 时 间 显 式 建 模 的 神经 网 络 。 用 于 构建 RNN 的 神经 元 同样 也 接收 来 自 其 他 神经 元 的 加 权 输 入 。 然 
而 ， 在 RNN 中 ， 神 经 元 既 允 许 与 更 高 的 层 建立 连接 ， 也 人 允许 与 更 低 的 层 建立 连接 。RNN 网 络 的 这 些 隐 含 活性 值 会 在 同一 序列 的 相 邻 输入 之 间 被 记忆 。 












IN 





前 馈 神 经 网 络 与 循环 神经 网 络 


目 20 世 纪 80 年 代 以 来 ， 出 现 了 RNN 的 各 种 变 体 ， 但 均 未 获得 广泛 的 应 用 ， 原 因 古 那 时 的 计算 资源 匮乏 且 训 练 中 存在 诸多 难点 ， 然 而 近年 来 情况 已 有 改观 。 
随 着 一 些 重要 架构 的 出 现 ， 如 2006 年 提出 的 LSTM，RNN 已 经 拥有 了 非常 强大 的 应 用 。 它 们 能 够 很 好 地 完成 许多 领域 的 序列 任务 ， 如 语 首 识 别 、 语 首 合 成 、 手 
写 连 体 字 识 别 、 时 间 序 列 预 出 、 图 像 标题 生成 以 及 端 到 端的 机 器 翻译 等 。 


接 下 来 ， 将 首先 深入 探讨 RNN 及 其 优化 方法 ， 同 时 介绍 必要 的 数学 背景 知识 。 之 后 ， 会 介绍 有 助 于 克服 标准 RNN 某 些 局 限 性 的 一 些 变种 。 当 掌握 了 这 些 
工具 ， 我 们 将 深入 介绍 四 种 自然 语言 处 理 任务 ， 并 运用 RNN 解 决 其 中 的 问题 。 我 们 将 逐一 介绍 所 有 的 步 又， 包括 用 TensorFlow 完 成 数据 处 理 、 模 型 设计 、 实 现 
及 训练。 








6.1.2 MWEE 





下 面 开 始 介 绍 RNN， 并 试 着 培养 一 些 直 和 党。 之 前 介绍 过 的 前 饥 神 经 网 络 只 能 在 固定 长 度 的 癌 量 上 工作 。 例 如 ， 它 们 可 将 28x28 像 素 的 图 像 映 射 为 10 个 可 能 
类 别 上 的 概率 分 布 ， 且 计算 在 固定 的 步 数 《〈 即 层 的 数目 ) 内 完成 。 相 比 之 下 ， 无 论 输入 还 是 输出 为 可 变 长 癌 量 ， 或 输入 输出 均 为 可 变 长 癌 量 ， 循 环 神经 网 络 都 
可 以 应 对 。 








RNN 基 本 上 是 一 个 由 神经 元 和 连接 权 值 构成 的 任意 有 向 图 。 输 入 神经 元 (inputneuron) 拥有 “到 来 "连接 ， 因 为 它们 的 活性 值 是 由 输入 数据 设置 的 。 输 出 神 
经 元 〈output neuron) 也 只 是 数据 流 图 中 的 一 组 可 从 中 读 取 预测 结果 的 神经 元 。 数 据 流 图 中 的 所 有 其 他 神经 元 都 被 称 为 隐 合 神经 元 (hidden neuron) 。 








RNN 所 执行 的 计算 与 普通 的 神经 网 络 非常 类 似 。 在 每 个 时 间 步 ， 痢 会 通过 设置 输入 神经 元 而 为 网 络 提供 输入 序列 的 下 一 帧 。 相 比 于 前 馈 网 络 ， 我 们 无 法 将 
隐 合 活性 值 丢弃 ， 因 为 它们 还 将 作为 下 一 个 时 间 步 的 附加 输入 。RNN 的 当前 隐 含 活性 值 被 称 为 状态 。 在 每 个 序列 的 最 开始 ， 我 们 通 利 会 设置 一 个 值 为 0 的 空 状 


态 。 





_ oe 
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FFNN 和 RNN 的 简化 表示 





RNN 的 状态 依赖 于 当前 输入 和 上 一 个 状态 ， 而 后 者 又 依赖 于 更 上 一 步 的 输入 和 状态 。 因 此 ， 状 态 与 序列 之 前 提供 的 所 有 输入 都 间接 相关 ， 从 而 可 理解 为 工 
作 记 忆 (working memory) 。 


可 将 神经 网 络 与 计算 机 程序 做 一 类 比 。 例 如 ， 假 设 希 望 从 一 幅 包 含 手 写 文 本 的 图 像 中 识别 字母 ， 我 们 准备 尝试 通过 编写 一 个 使 用 变量 、 循 坏 、 分 文 语句 的 
Python 程序 来 解决 该 问题 。 不 妨 大 胆 答 试 ， 但 笔者 认为 要 想 让 程序 稳健 地 工作 是 极为 困难 的 。 











一 个 好 消 晨 是 可 选择 男 一 种 方式 一 一 依据 样本 数据 训练 一 个 RNN 模 型 。 正 像 我 们 通常 会 将 中 间 信 息 保存 在 变量 中 一 样 ，RNN 也 会 学 习 将 其 中 间 信 息 保 存 
在 目 喘 的 状态 中 。 类 似 地 ，RNN 的 权 值 矩阵 定义 了 它 所 执行 的 程序 ， 决 定 了 在 隐 伟 活性 值 中 保存 什么 输入 ， 以 及 如 何 将 不 同 活性 值 整合 为 新 的 活性 值 和 输出 。 


实际 上 ， 带 有 sigmoid 激 活 函 数 的 RNN 已 由 Sch? fr 和 Zimmermann 于 2006 年 证 明 是 图 灵 完 备 的 《Turng-complete) 。 这 意味 着 ， 当 给 定 正 确 的 权 值 时 ，RNN 可 
完成 与 任意 计算 程序 相同 的 计算 。 然 而 这 上 只 是 一 个 理论 性 质 ， 因 为 当 给 定 一 项 任务 时 ， 不 存在 找到 完美 权 值 的 方法 。 尽 管 如 此 ， 利 用 梯度 下 降 法 仍然 能 够 得 到 
相当 好 的 结果 ， 相 关内 容 将 在 下 一 节 中 进行 介绍 。 














在 开始 探讨 RNN 的 优化 方法 时 ， 读 者 可 能 会 疑惑 ， 既 然 能 够 编写 Python 程序 ， 为 什么 还 需要 RNN 呢 ? 可 以 这 样 理 解 ， 可 能 的 权 值 矩阵 构成 的 空间 相 比 可 能 
的 C 程 序 构成 的 空间 要 更 加 容易 研究 。 


6.1.3” 随 时间 反问 传播 


既然 对 于 何 为 RNN 以 及 为 何其 染 构 很 酷 已 有 了 一 些 基本 了 解 ， 下 面 来 探讨 如 何 找 到 一 个 “好 ”的 权 值 矩阵 ， 或 如 何 对 权 值 进行 优化 。 对 于 前 馈 网 络 ， 最 流行 
的 优化 方法 是 基于 梯度 下 降 法 。 然 而 ， 如 何在 RNN 这 种 动态 系统 中 将 误差 反 向 传播 并 非 那么 显而易见 。 





沿 时 间 轴 将 循环 神经 网 络 展开 


优化 RNN 可 采取 这 样 一 种 技巧 ， 即 沿 时 间 轴 将 其 展开 ， 之 后 就 可 使 用 与 优化 前 馈 网 络 相同 的 方式 对 RNN 进 行 优 化 。 例 如 ， 假 设 希 望 对 一 个 长 度 为 10 的 序 
列 进行 处 理 。 可 将 隐 仿 神经 元 复制 10 次 ， 并 将 它们 的 连接 从 一 个 副本 路 连 到 相 邻 的 另 一 个 副本 。 这 样 便 可 将 那些 循环 连接 移 除 ， 而 不 更 改 计算 的 语义 。 经 过 上 
述 处 理 ， 便 形成 了 一 个 前 馈 网 络 ， 且 相 邻 时 间 步 之 间 的 权 值 都 拥有 相同 的 强度 。 按 时 间 展 开 RNN 不 会 使 计算 及 生 改 变 ， 只 是 切换 为 了 力 一 个 视图 。 





沿 时 间 将 RNN 展 开 的 简化 表示 


这 样 ， 为 计算 误差 相对 于 各 权 值 的 标 度 ， 便 可 对 这 个 展开 的 RNN 网 络 运 用 标准 的 反问 传播 算法 。 这 种 算法 被 称 为 随时 间 反 癌 传播 (Back-Propagation 
Through Time，BPTT)〉。 该 算法 将 返回 与 时 间 相关 的 误差 对 每 个 权 值 (也 包括 那些 联结 叫 相 邻 副 本 的 权 值 的 偏 导 。 为 保持 联结 权 值 相同 ， 可 采用 普通 的 联结 
权 值 处 理 方法 ， 即 将 它们 的 梯度 相 加 。 请 注意 ， 这 种 方式 与 卷 积 神经 网 络 中 处 理 卷 积 滤波 器 的 方式 等 价 。 








6.1.4 序列 的 编码 和 解码 








前 面 RNN 的 展开 视图 不 但 对 优化 十 分 有 用 ， 它 还 为 RNN 及 其 输入 和 输出 数据 的 可 视 化 提供 了 一 种 直观 的 方式 。 在 开始 具体 实现 之 前 ， 先 快速 了 解 一 下 
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RNN 实 现 的 到 底 是 何 种 映射 。 序 列 任务 往往 有 多 种 形式 : 有 时 ， 输 入 为 一 个 序列 ， 而 输出 为 一 个 癌 量 ;或 者 反 过 来 。 对 于 这 样 的 例子 以 及 更 复杂 的 情 
形 ，RNN 都 能 够 处 理 。 


序列 分 类 序列 生成 序列 标注 序列 翻译 








循环 神经 网 络 的 币 见 映射 


序列 标注 〈sequentiallabeling) 其 实在 之 前 的 小 节 中 我 们 已 经 接触 过 了 。 在 这 种 任务 中 ， 将 一 个 序列 作为 输入 ， 并 训练 网 络 为 每 帧 数据 产生 正确 的 输出 。 因 
此 ， 基 本 上 可 以 说 序列 标注 完成 的 是 一 个 序列 到 另 一 个 序列 的 等 长 映射 。 





在 序列 分 类 〈sequential classification) 设置 下， 每 个 序列 输入 都 对 应 一 个 类 别 标签 。 在 这 种 设置 下 ， 可 仅 选 择 上 一 帧 的 输出 训练 RNN。 在 优化 期 间 ， 更 新 权 
值 时 ， 误 将 将 流 经 所 有 的 时 间 步 以 收集 和 集成 每 个 时 间 步 中 的 有 用 信息 。 





序列 生成 “sequential generation) 与 序列 分 类 恰好 相反 ， 它 所 定义 的 问题 是 ， 给 定 一 个 类 别 标签 ， 如 何 生成 一 些 序列 。 为 了 生成 序列 ， 可 将 输出 反馈 给 网 络 
作为 下 一 步 输入 。 这 有 是 合理 的 ， 因 为 实际 输出 通常 都 与 这 种 神经 网 络 的 输出 不 同 。 例 如 ， 网 络 的 输出 可 能 是 一 个 在 所 有 类 别 上 的 概率 分 布 ， 但 我 们 仅 会 选择 最 


可 能 的 那个 类 别 。 











在 序列 分 类 和 序列 生成 任务 中 ， 可 将 单个 回 量 视 为 信息 的 稠密 表示 。 在 前 者 中 ， 为 了 对 类 列 做 出 预测 ， 雷 要 将 序列 编码 为 一 个 秽 密 向 量 ， 在 后 者 中 ， 将 币 
密 问 量 解码 为 一 个 序列 。 








对 于 序列 翻译 《〈sequentialtranslation) 任务 ， 可 将 这 些 方法 进行 整合 。 首 先 对 一 个 域 《 如 喘 语 ) 中 的 序列 进行 编码 ， 然 后 将 最 后 的 隐 合 活性 值 解码 为 妃 一 个 
域 (如 法 语 ) 中 的 一 个 序列 。 对 于 单个 RNN 模 型 ， 这 是 完全 可 行 的 ， 但 当 输 入 和 输出 在 概念 层次 存在 差异 时 ， 使 用 两 个 不 同 的 RNN， 并 用 第 一 个 模型 中 最 后 
的 活性 值 初始 化 第 二 个 模型 则 是 有 意义 的 。 使 用 单个 网 络 时 ， 需 要 在 序列 之 后 传 入 一 个 特殊 符号 作为 输入 ， 以 通知 网 络 何 时 停止 编码 ， 并 开始 解码 。 











带 有 输出 投影 的 循环 神经 网 络 


最 常见 的 情况 下 ， 会 使 用 一 种 称 为 囊 有 输出 投影 的 RNN 网 络 结构 。 这 种 RNN 有 具有 全 连接 的 隐 含 单元 ， 以 及 一 些 映 射 为 这 些 隐 含 单元 的 输入 和 从 这 些 隐 含 
单元 映 冉 得 到 的 输出 。 看 待 这 种 模型 的 为 一 种 方式 是 : 这 种 RNN 模 型 的 所 有 隐 含 单元 都 为 输出 ， 而 其 上 扒 登 了 妃 外 一 个 前 馈 属 。 稍 后 将 了 解 到 ， 这 正 是 我 们 用 
TensorFlow 实 现 RNN 的 方式 ， 因 为 它 既 方 便 ， 又 允许 为 隐 合 单 元 和 输出 单元 指定 不 同 的 激活 函数 。 








6.1.5 实现 第 一 个 循环 神经 网 络 
下 面具 体 实现 到 目前 为 止 所 学 习 到 的 RNN 知 识 点 。TensorFlow 文 持 RNN 的 各 种 变 体 ， 可 从 人 萎 nnrmn cell 模块 中 找到 这 些 变 体 的 实现 。 借 助 tensorftow.models.rmn 
中 的 ttnn.dynamic mn O 运算 ，TensorFlow 还 为 我 们 实现 了 RNN 动 力学 。 


该 函数 还 有 一 个 版 本 ， 可 回 数 据 流 图 添加 展开 和 运算， 而 不 使 用 环 。 然 而 ， 该 版 本 会 消耗 更 多 的 内 存 ， 而 且 没 有 实际 的 益处 。 因 此 ， 我 们 推荐 使 用 较 新 的 
dynamic mn () 运算 。 





天 于 参数 ，dynamic rn O ANA MSIE CU Ra TA Ne BAHT, AAI. ew Bees ll Bayi AM Be 
RNN 所 需 的 计算 ， 并 返回 保存 了 每 个 时 间 步 的 输出 和 隐 含 状态 的 两 个 张 量 。 
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import tensorflow as tf 
from tensorflow.models.rnn import rnn cell 
from tensorflow.models.rnn import rnn 


# 输入 数据 的 维 数 为 batch_size * sequence_length * frame_size. 
# 不 希望 限制 批 次 的 大 小 ， 将 第 1 维 的 尺寸 设 为 None 
sequence_Length = 
frame size =... 
data = tf.placeholder(tf.float32, [None, sequence_Length, 
frame_size]) 


num neurons = 200 
network = rnn_cell.BasicRNNCelLL(num_neurons) 


# 为 sequence_length 步 定义 模拟 RNN 的 运算 
outputs, states = rnn.dynamic_rnn(network, data, 
dtype=tf.float32) 


这 样 便 完成 了 RNN 的 定义 ， 并 将 它 沿 时 间 轴 展开 ， 我 们 只 需 加 载 一 些 数 据 ， 并 选择 一 种 TensorFlow 提 供 的 优化 器 ， 如 从 train.RMSPropOptimizer 或 
从 train.AdamOptimizer 训 | 练 网 络 即 可 。 在 本 章 后 续 小 节 中 ， 我 们 还 将 看 到 更 多 利用 RNN 解 决 实际 问题 的 例子 。 


6.1.6 梯度 消失 与 梯度 爆炸 





在 上 一 节 中 ， 我 们 定义 了 RNN， 并 将 其 沿 时 间 轴 展开 ， 以 对 误差 进行 反 向 传播 和 运用 标 度 下 降 法 。 然 而 ， 这 种 模型 的 表现 目前 并 不 尽 如 人 意 ， 尤 其 是 它 无 
法 捕捉 输入 帧 之 间 的 长 时 依赖 关系 ， 而 这 种 关系 正 是 NLP 任 务 所 需要 的 。 


下 面 给 出 一 个 示例 任务 ， 该 任务 涉及 长 时 依赖 性 ， 要 求 RNN 能 够 判别 给 定 输入 序列 是 否 为 给 定语 法 的 一 部 分 。 为 完成 该 任务 ， 网 络 必须 记 住 其 中 含有 许多 
后 续 不 相关 的 帧 的 序列 的 第 一 帧 。 对 于 到 目前 为 止 我 们 所 接触 的 传统 RNN 和 模型， 为 什么 这 会 是 一 个 问题 ? 











一 种 包含 长 时 依赖 关系 的 语法 


RNN 之 所 以 难于 学 习 这 种 长 时 依赖 关系 ， 原 因 在 于 优化 期 间 误差 在 网 络 中 的 传播 方式 。 前 文 提 到 过 ， 为 了 计算 梯度 ， 要 将 误差 在 展开 后 的 RNN 中 传播 。 
对 长 序列 而 言 ， 这 种 展开 的 网 络 的 深度 将 会 非常 大 ， 层 数 非常 多 。 在 每 一 层 中 ， 反 加 传播 算法 都 会 将 来 自 网 络 上 一 层 的 误差 乘 以 局 部 俩 导 。 














如 果 大 多 数 局 部 偏 导 都 远 小 于 1， 则 梯度 每 经 过 一 层 都 会 变 小 ， 且 呈 指 数 级 衰减 ， 从 而 最 终 消 失 。 类 似 地 ， 如 果 许 多 俩 导 都 大 于 1， 则 会 使 梯度 值 急剧 增 
大 。 





深度 网 络 中 不 稳定 的 梯度 值 


下 面 计算 上 图 所 示 网 络 的 梯度 值 。 该 网 络 的 每 层 仅 设置 了 一 个 隐 节 点 ， 目 的 是 帮助 你 更 好 地 理解 这 个 问题 。 将 各 个 层 的 局 部 俩 导 


PD) Wo 
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dC OC dout, din; dout: i din: dout; 


diny dout; din; dout: din: dout, din, 




















rd 


dini 


= cost’(f(outs))*/’(ins)* W5*f"(in2)* W7* f(n) 





从 上 式 可 以 看 出 ， 误 差 项 中 包含 了 作为 相 乘 项 的 权 值 矩阵 的 转 置 。 在 这 个 示例 网 络 中 ， 权 值 矩 阵 仅 有 一 个 分 量 ， 因 此 可 以 比较 容易 地 看 出 当 大 多 数 权 值 都 
小 于 《或 大 于 ) 1 时 ， 这 个 梯度 值 便 会 接近 于 0 或 无 穷 大 〉 。 在 一 个 权 值 矩阵 为 实数 类 型 的 较 大 规模 的 网 络 中 ， 奉 权 值 矩阵 的 特征 值 小 于 (或 大 于 ) 1 时 ， 也 
会 出 现 同样 的 问题 。 





实际 上 ， 在 任何 深度 网 络 中 ， 该 问题 都 是 存在 的 ， 而 非 只 有 循环 神经 网 络 中 才 有 这 样 的 问题 。 在 RNN 中 ， 相 邻 时 间 步 是 联结 在 一 起 的 ， 因 此 ， 这 样 的 权 值 
的 局 部 偏 导 要 么 都 小 于 1， 要 么 都 大 于 1， 原 始 〈 或 展开 的 ) RNN 中 每 个 权 值 都 会 向 着 相同 的 方 同 被 缩放 。 因 此 ， 相 比 于 前 馈 神经 网 络 ， 梯 度 消 失 或 梯度 爆炸 这 
个 问题 在 RNN 中 更 为 突出 。 


在 许多 问题 中 ， 都 伴 有 很 小 或 很 大 的 梯度 值 。 当 梯度 的 各 分 量 接近 于 0 或 无 穷 大 时 ， 训 练 分别 会 出 现 停滞 或 发 散 。 此 外 ， 由 于 我 们 做 的 是 数值 优化 ， 
此 ， 浮 点 精度 也 会 对 梯度 值 产生 影响 。 该 问题 也 被 称 为 深度 学 习 中 的 基本 问题 ， 在 近年 来 已 受到 许多 研究 者 的 关注 。 目 前 最 流行 的 解决 方案 是 一 种 称 为 长 短 时 
记忆 网 络 (long-short term memory，LSTM) 的 RNN 架 构 。 下 一 节 将 对 该 架构 进行 探讨 。 




















6.1.7 长 短 时 记忆 网 络 





LSTM 有 是 一 种 特殊 形式 的 RNN， 由 Hochreiter 和 Schmidhuber 于 1997 年 提出 ， 它 是 专 为 解决 梯度 消失 和 梯度 爆炸 问题 而 设计 的 。 在 学 习 长 时 依赖 关系 时 它 有 着 
早 越 的 表现 ， 并 成 为 RNN 事 实 上 的 标准 。 自 从 该 模型 被 提出 后 ， 人 们 相继 提出 了 LSTM 的 厦 干 变种 ， 这 些 变 种 的 实现 已 包含 在 TensorFlow 中 ， 相 关内 容 将 在 本 
市 稍 后 加 以 强调 。 





为 解决 标 度 消失 和 梯度 爆炸 问题 ,LSTM 染 构 将 RNN 中 的 普通 神经 元 蔡 换 为 其 内 部 拥有 少量 记忆 的 LSTM 单 元 (LSTM Cell) 。 如 同 普通 RNN， 这 些 单元 也 
被 联结 在 一 起 ， 但 它们 还 拥有 有 助 于 记忆 许多 时 间 步 中 的 误差 的 内 部 状态 。 





LSTM 的 寄 门 在 于 这 种 内 部 状态 拥有 一 个 固定 权 值 为 1 的 自 连 接 ， 以 及 一 个 线性 激活 函数 ， 因 此 其 局 部 偏 导 始终 为 1。 在 反问 传播 阶段 ， 这 个 所 谓 的 常量 误 
Fee iF (constant error carousel) 能 够 在 许多 时 间 步 中 携带 误差 而 不 会 发 生 梯度 消失 或 梯度 爆炸 。 








e,=f'(in,) *w*e4,;= 1.0 


尽管 内 部 状态 的 目的 是 随 许多 时 间 步 传递 误 苦 ，LSTM 架 构 中 负责 学 习 的 实际 上 是 环绕 门 〈surrounding gates) ， 这 些 门 都 拥有 一 个 非 线性 的 激活 函数 〈 通 各 
为 Sigmoid) 。 在 原始 的 LSTM 单 元 中 ， 有 两 种 门 : 一 种 负责 学 习 如 何 对 到 来 的 活性 值 进行 缩放 ， 而 另 一 种 负 贡 学 习 如 何 对 输出 的 活性 值 进 行 缩 放 。 因 此 ， 这 种 
单元 可 学 习 何 时 包含 或 忽略 新 的 输入 ， 以 及 何 时 将 它 表 示 的 特征 传递 给 其 他 单元 。 一 个 单元 的 输入 会 送 入 使 用 不 同 权 值 的 所 有 门 中 。 











也 可 将 循环 神经 网 络 视 为 一 些 ' 层 ” 因为 它 可 以 用 作 规 模 更 大 的 网 络 架 构 的 组 成 部 分 。 例 如 ， 我 们 可 首先 将 时 间 步 送 入 奉 干 卷 积 和 池 化 层 ， 然 后 用 一 个 
LSTM 层 处 理 这 些 输 出 ， 并 在 位 于 最 后 的 时 间 步 LSTM 活 性 值 上 添加 一 个 softmax 层 。 








TensorFlow 为 这 样 的 LSTM 网 络 提供 了 LSTMCel 类 ， 它 可 直接 替换 BasicRNNCel 类 ， 同 时 该 类 还 提供 了 一 些 额 外 的 开关 。 尽 管 该 类 名 称 从 字面 上 看 只 有 
LSTM 单 元 ， 但 实际 上 表示 了 一 个 完整 的 LSTM 层 。 在 后 面 的 小 节 中 ， 我 们 将 学 习 如 何 将 LSTM 层 与 其 他 网 络 进行 连接 ， 以 形成 更 大 规模 的 网 络 。 


输出 门 
输出 非 线性 

OL 中 . 
ns EDE 


输入 门 ON 
输入 非 线性 
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长 短 时 记忆 CLSTM) 


6.1.8 RNN 结 构 的 变种 


LSTM 的 一 种 比较 流行 的 变种 是 添加 一 个 对 内 部 循环 连接 进行 比例 缩放 的 遗忘 门 (forget gate) ， 以 允许 网 络 学 会 遗忘 站。 这 样 ， 内 部 循环 连接 的 局 部 偏 导 
就 变 成 了 遗 坊 门 的 活性 值 ， 从 而 可 取 为 非 1 的 值 。 当 记忆 单元 上 下 文 非常 重要 时 ， 这 种 网 络 也 可 以 学 会 将 遗忘 门 保持 关闭 状态 。 








将 遗 起 门 的 初始 值 设 为 1 是 非常 重要 的 ， 因 为 这 样 可 使 LSTM 单 元 从 一 个 记忆 状态 开始 工作 。 如 今 ， 在 几乎 所 有 的 实现 中 ， 遗 坪 门 都 是 默认 存在 的 。 在 
TensorFlow 中 ， 可 通过 指定 LSTM 层 的 forget bias 参 数 对 遗 筷 门 的 俩 置 进行 初始 化 ， 默 认 初 值 为 1， 也 建议 不 要 修改 这 个 默认 值 。 








市 有 遗忘 门 和 门限 循环 单元 GRU) 的 LSTM 


另 一 种 扩展 是 添加 帘 视 孔 连 接 (peephole connection) ， 以 使 一 些 门 能 够 看 到 单元 的 状态 Bl 。 提 出 该 变种 的 作者 声称 当 任 务 中 涉及 精确 的 时 间 选 择 和 间隔 
时 ， 使 用 示 视 孔 连 接 是 有 益 的 。TensorFlow 的 LSTM 层 文 持 括 视 孔 连接 。 可 通过 为 LSTM 层 传 入 use_ peepholes=True 标 记 将 颗 视 孔 连 接 激活 。 








基于 LSTM 的 基本 思想 ，Chung Junyoung 等 于 2014 年 提出 了 门限 循环 单元 (Gated Recurrent Unit, GRU) 向 。 与 LSTM 相 比 ，GRU 的 架构 更 简单 ， 而 且 只 需 更 
少 的 计算 量 就 可 得 到 与 LSTM 非 常 相近 的 结果 。GRU 没 有 输出 门 ， 它 将 输入 和 遗忘 门 整合 为 一 个 单独 的 更 新 门 (update gate) 。 








更 新 门 决 定 了 内 部 状态 与 候选 活性 值 的 融合 比例 。 候 选 活性 值 是 依据 由 重 置 门 (reset gate) 和 新 的 输入 确定 的 部 分 隐 含 状态 计算 得 到 的 。TensorFlow 的 


GRU 层 对 应 GRUCell 类 ， 除 了 该 层 中 的 单元 数目 ， 它 不 含 任何 其 他 参数 。 如 果 希 望 进一步 了 解 GRU， 笔 者 推荐 参阅 Jozefowicz 等 发 表 的 ICML'015 文 章 站， 这 篇 文 
半 对 循环 单元 架构 进行 了 经 验 性 的 探索 。 





循环 神经 网 络 中 的 多 个 层 


到 目前 为 止 ， 我 们 研究 了 带 有 全 连接 隐 合 单元 的 RNN。 这 是 最 一 般 的 架构 ， 因 为 这 种 网 络 能 够 学 会 在 训练 期 间 将 不 需要 的 权 值 置 为 0。 不 过 ， 最 常见 的 做 
法 是 将 两 层 或 多 层 全 连接 的 RNN 相 互 堆 个 。 这 仍 可 视 为 一 个 其 连接 拥有 茶 种 结构 的 RNN 网 络 。 由 于 信息 只 能 在 两 层 之 间 向 上 流动 ， 与 规模 较 大 的 全 连接 RNN 
相 比 ， 多 层 RNN 拥 有 的 权 值 数目 更 少 ， 而 且 有 助 于 学 习 到 更 多 的 抽象 特征 。 
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6.2 WPA 











本 节 将 实现 一 个 能 够 学 习 词 癌 量 的 模型 。 对 于 各 种 NLP 任务 ， 这 是 一 种 表示 词 的 强大 方式 。 词 癌 量 侍 入 这 个 话题 近年 来 频 受 关注 ， 因 为 最 近 提 出 的 方法 已 经 可 
以 足够 高 效 地 处 理 大 规模 文本 语料库 。 对 于 该 任务 ， 我 们 不 打算 使 用 RNN， 但 对 于 后 续 其 他 任务 ， 我 们 都 将 依赖 本 节 所 介绍 的 内 容 和 方法 。 如 果 你 对 词 癌 量 的 概 
念 以 及 像 word2vec 这 样 的 工具 非常 熟悉 ， 但 对 于 自己 实现 相关 算法 不 感 兴趣 ， 可 以 放心 地 跳 过 这 一 节 。 




















为 何 要 将 词 表 示 为 向 量 ? 最 简单 的 方式 是 将 词 送 入 一 个 独 热 编码 〈one-hot encoding) 的 学 习 系 统 ， 即 表示 为 一 个 长 度 为 词汇 表 长 度 的 向 量 ， 除 该 词语 对 应 位 置 
的 元 素 为 1 外， 其 余 元 素 均 为 0。 这 种 方法 有 两 个 问题 ， 首 先 ， 对 于 实际 应 用 ， 这 种 表示 方法 会 导致 问 量 的 维 数 很 高， 因为 在 自然 语言 中 有 许多 不 同 的 词语 ， 其 次 ， 
独 热 编码 表示 无 法 刻画 不 同 词语 之 间 的 语义 关联 〈 而 这 种 关联 是 显然 存在 的 ) 。 



































词语 的 独 热 编码 表示 











作为 语义 关联 问题 的 一 个 解决 方案 ， 依 据 共 生 关 系 〈co-occurrence) 表示 单词 的 思路 由 来 已 入。 这 种 方法 的 基本 思路 是 ， 遍 历 一 个 大 规模 文本 语料库 ， 针 对 每 
个 单词 ， 统 计 其 在 一 定 距离 范围 《例如 $) 内 的 周围 词汇 。 然 后 ， 用 附近 词汇 的 规范 化 数量 表示 每 个 词语 。 这 种 方法 背后 的 思想 是 在 类 似 语 境 中 使 用 的 词语 在 语义 
上 也 是 相似 的 。 这 样 ， 便 可 运用 PCA 或 类 似 的 方法 对 出 现 癌 量 (occurrence vector) 降 维 ， 从 而 得 到 更 稠密 的 表示 。 虽 然 这 种 方法 具有 很 好 的 性 能 ， 但 它 要 求 我 们 追 
踪 所 有 词汇 的 共生 矩阵， 即 一 个 宽度 和 高 度 均 为 词汇 表 长 度 的 方 阵 。 


年 龄 、 性 别 ”健康 
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词语 的 分 布 式 表示 


在 2013 年 ，Mikolov 等 提出 了 一 种 依据 上 下 文 计 算 词 表示 的 实用 有 效 的 方法 ， 相 应 的 文章 是 Mikolov、Tomas 等 的 《Effcient estimation of word representations in vector 
space) (arXiv preprint arXiv: 1301.3781 (2013) ) 。 他 们 的 skip-gram 模 型 从 随机 表示 开始 ， 并 拥有 一 个 试图 依据 当前 词语 预测 一 个 上 下 文 词语 的 简单 分 类 器 。 误 差 
同时 通过 分 类 器 权 值 和 词 的 表示 进行 传播 ， 我 们 需要 对 这 两 者 进行 调整 以 减少 预测 误差 。 研 究 有 发现， 在 大 规模 语料库 上 训练 该 模型 可 表示 向 量 逼 近 压 缩 后 的 共生 辣 
量 。 下 面 利用 TensorFlow 实 现 skip-gram 异 型 。 








6.2.1 准备 维基 百科 语料库 





在 探讨 skip-gram 模 型 的 细节 之 前 ， 需 要 准备 数据 集 。 在 本 例 中 ， 我 们 将 使 用 英文 维基 百科 转 储 文件 。 默 认 的 转 储 文件 包含 所 有 页 面 的 完整 修订 历史 ， 但 从 当前 
页 面 版 本 中 ， 我 们 已 经 能 够 获取 到 约 100GB 的 充足 数据 。 本 练习 对 其 他 语言 同样 适用 ， 可 从 维基 百科 下 载 站 点 httpsVdumps.wikimedia.ore/backup-indexhtml 获取 所 有 可 
用 转 储 文件 的 概况 。 
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import bz2 

import collections 
import os 

import re 


class Wikipedia: 


def init (self, url, cache dir, 
vocabulary_size=10000): 
pass 


def _iter_(self): 
"R JA FAR AY EEE R H R ay Fl) He A a" 


pass 


@property 
def vocabulary_size(self): 
pass 


def encode(self, word): 
"获取 一 个 字符 串 词 语 的 词汇 索引 """ 
pass 


def decode(self, index): 
"依据 词 T 5 i 回 字符 E 词语 """ 


pass 


def read pages(self, url): 


nnn 


从 维基 百科 转 储 文件 提取 单词 ， 并 将 它们 保存 到 页 面 文件 。 
每 个 页 面 都 包含 一 行 由 空格 分 隔 的 一 行 单词 


nnn 


pass 


def _build_vocabulary(self, vocabulary_size): 


nnn 


统计 页 面 文件 中 的 单词 数 ， 并 将 词汇 表 文 件 中 出 现 频率 最 高 的 词语 写 入 文件 


nnn 


pass 


@classmethod 
def _tokenize(cls, page): 
pass 





为 了 以 正确 的 格式 表示 数据 ， 还 需 执行 右 干 步 台 。 正 如 本 书 前 文 所 讲 的 ， 数 据 收集 和 清洗 是 非常 迫切 和 重要 的 任务 。 最 终 ， 我 们 决定 吉 历 表示 为 独 热 编码 词语 
的 维基 页 面 。 为 此 ， 需 要 完成 下 列 步 又 : 


D 下 载 转 储 文件 ， 提 取 页 面 及 其 中 的 词语 。 


2) 统计 词语 的 出 现 次 数 ， 构 建 一 个 由 最 常见 词语 构成 的 词汇 表 。 





3) 利用 该 词汇 表 对 提取 的 页 面 进行 编码 。 
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要 将 整个 语料库 一 次 性 放 入 主 存 是 非常 困难 的 ， 因 此 通过 逐 行 读 取 文 件 ， 并 立即 将 结果 写 入 磁盘 的 方式 对 数据 流 执行 这 些 操作 。 按 照 这 种 方式 ， 在 不 同步 又 之 
间 保 存 了 检查 点 ， 以 避免 程序 骨 涡 时 不 得 不 重新 开始 。 现 在 利用 下 面 的 类 来 实现 维基 百科 数据 的 处 理 。 在 _init O 中 ， 可 利用 文件 存在 性 检查 理解 检查 点 逻 


辑 。 





def init (self, url, cache dir, vocabulary_size=10000): 

self. cache dir = os.path.expanduser(cache_ dir) 

self. pages path = os.path.join(self. cache dir, 
‘pages.bz2') 

self._vocabulary_path = os.path.join(self._cache_dir, 
‘'vocabuLlary.bz2' ) 


if not os.path.isfile(self. pages path): 
print('Read pages' ) 
self. read pages(url) 

if not os.path.isfile(self. vocabulary_path): 
print('Build vocabulary') 
self. build vocabulary(vocabulary size) 

with bz2.open(self._vocabulary_path, 'rt') as vocabulary: 
print('Read vocabulary’ ) 
self._vocabulary = [x.strip() for x in vocabulary] 

self._indices = {x: i for i, x in 

enumerate(self. vocabulary) } 


def iter (self): 
"" 谍 历 表示 为 由 词语 索引 构成 的 列表 的 页 面 """ 
with bz2.open(self._pages_ path, 'rt') as pages: 
for page in pages: 


words = page.strip().split() 
words = [self.encode(x) for x in words] 
yield words 


@property 
def vocabuLlary_size(self): 
return Len(self. vocabulary) 


def encode(self, word): 
mn 获取 个 = 2 符 串 词 语 的 词 汇 索 引 nnn 
return self. _indices.get(word, 0) 


def decode(self, index): 
nnn 依 af 词 +L 索 5| ik 回 = 4 符 E 词 语 nnn 
return self._vocabulary[index] 


你 可 能 已 经 注意 到 ， 我 们 仍然 必须 为 该 类 实现 两 个 重要 的 函数 。 第 一 个 是 read pages () ， 它 的 功能 是 下 载 维基 百科 转 储 文件 _ 一 个 经 过 压缩 的 XML 文件 ， 
并 遍历 各 页 面 ， 从 中 提取 移 除 格式 后 的 纯 文 本 。 为 了 读 取 压 缩 的 转 储 文件 ， 需 要 使 用 bz 模块 ， 它 提供 了 一 个 open O 函数 ， 这 个 函数 的 工作 方式 与 其 标准 版 本 类 
似 ， 但 更 关注 压缩 和 解压 缩 ， 即 使 以 流 式 传输 文件 也 是 如 此 。 为 节省 磁盘 空间 ， 对 于 中 间 结 果 也 应 做 压缩 处 理 。 用 于 提取 词语 的 正则 表达 式 仅 捕捉 任意 的 连续 字母 
序列 以 及 一 些 单独 出 现 的 特殊 字母 。 
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TOKEN_REGEX = re.compile(r'[A-Za-z]+|][!?.:,0)]') 
def read pages(self, url): 


从 维基 百科 转 储 文件 提取 单词 ， 并 将 它们 保存 到 页 面 文件 。 

每 个 页 面 都 包含 一 行 由 空格 分 隔 的 一 行 单词 

wikipedia path = download(url, self. cache dir) 

with bz2.open(wikipedia path) as wikipedia, \ 
bz2.open(self._pages_ path, 'wt') as pages: 

for _, element in etree.iterparse(wikipedia, 
tag='{*}page'): 
if element. find('./{*}redirect') ts not None: 
continue 

page = element. findtext('./{*}revision/{*}text' ) 
words = self._tokenize(page) 
pages.write(' '.join(words) + '\n') 
element.clear() 


@clLassmethod 

def tokenize(cls, page): 
words = cls. TOKEN REGEX. findall(page) 
words = [x.lower() for x in words] 
return words 











在 进行 独 热 编 码 时 ， 需 要 一 个 词汇 表 。 之 后 ， 便 可 按照 每 个 词 在 词汇 表 中 的 索引 对 其 进行 编码 。 为 了 将 一 些 拼写 错误 或 极 不 常见 的 词语 移 除 ， 词 汇 表 仪 包含 
vocabulary size-]1 个 最 常见 的 词语 及 一 个 用 于 标识 所 有 不 在 词汇 表 中 的 词语 的 <unk> 标 记 。 这 个 标记 也 为 我 们 提供 了 一 个 可 用 于 未 出 现 的 单词 的 词 问 量 。 








def build vocabulary(self, vocabulary_size): 


nnn 


统计 页 面 文件 中 的 单词 数 ， 并 将 词汇 表 文 件 中 出 现 频率 最 高 的 词语 写 入 文件 


nnn 


counter = collections .Counter() 
with bz2.open(self._pages_path, 'rt') as pages: 
for page in pages: 
words = page.strip().split() 
counter .update(words) 
common = ['<unk>'] + counter.most_common(vocabulary_size 
= — 
common = [x[0] for x in common] 
with bz2.open(self._vocabulary_path, ‘wt') as vocabulary: 
for word in common: 
vocabulary.write(word + '\n') 











由 于 提取 了 纯 文 本 ， 并 为 各 单词 定义 了 编码 ， 因 此 可 动态 地 形成 训练 样本 。 这 是 非常 有 利 的 ， 因 为 要 保存 这 些 样本 需要 大 量 存储 空间 。 由 于 大 部 分 时 间 都 用 于 
训练 ， 所 以 这 不 会 对 性 能 造成 太 大 影响 。 我 们 也 希望 将 生成 的 样本 组 织 到 一 些 批 数据 中 ， 以 使 训练 更 加 高 效 。 借 助 这 个 模型 ， 能 够 使 用 大 的 批 数据 ， 因 为 分 类 器 并 
不 需要 占用 大 量 内 存 。 


那么 如 何 形 成 训练 样本 ? 前 文 兽 介 绍 过 ，skip-gram 模 型 会 依据 当前 词语 预测 上 下 文 词语 。 在 过 历 文本 时 ， 我 们 用 当前 词语 作为 数据 ， 其 周围 的 词语 作为 目标 创 








建 训 练 样本 。 当 上 下 文 尺寸 为 R= 二 5 时 ， 则 可 从 每 个 单词 生成 2R 二 10 个 训练 样本 ， 其 中 R 个 词 来 自 当前 单词 的 左边 ， 而 将 右边 的 R 个 单词 作为 目标 值 。 然 而 ， 可 能 有 
人 认为 对 于 语义 上 下 文 ， 距离 较 近 的 近邻 比较 远 的 近邻 更 为 重要 。 因 此 ， 可 以 为 每 个 单词 从 范围 [1，D 二 10] 中 随机 选择 一 个 上 下 文 尺寸 ， 尽 量 少 地 创建 具有 较 远 上 
下 文 词语 的 训练 样本 。 
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def skipgrams(pages, max_context): 
"依据 Skip-gram 模 型 形成 训练 对 ”""” 
for words in pages: 
for index, current in enumerate(words): 
context = random.randint(1, max_context) 
for target in words[max(0, index - context): 
index]: 
yield current, target 
for target in words[index + 1: index + context + 
ei: 
yield current, target 


def batched(iterator, batch_size): 
"将 数值 流 数据 组 织 为 批 数 据 ， 并 用 NumPy 数 组 生成 它们 ””" 
while True: 
data = np.zeros(batch_size) 
target = np.zeros(batch_size) 
for index in range(batch_size): 
data[index], target[index] = next(iterator) 

yield data, target 


6.2.2 ”模型 结构 


至 此 ， 维 基 百 科 语 料 库 已 准备 完毕 ， 下 面 定 义 计 算 词 向 量 的 模型 。 


class EmbeddingModel: 


def init (self, data, target, params): 
self.data = data 
self.target = target 
self.params = params 
self.embeddings 
self.cost 
self.optimize 


QLazy property 
def embeddings(self): 
pass 


@lazy_ property 
def optimize(self): 
pass 


@lazy_ property 
def cost(self): 
pass 


初始 时 ， 每 个 单词 都 被 表示 为 一 个 随机 辐 量 。 依 据 这 种 单词 的 中 层 表 示 ， 一 个 分 类 器 会 试图 预测 它 的 上 下 文 单词 之 一 的 当前 表示 ， 然 后 我 们 对 误差 进行 传播 ， 
以 对 权 值 和 输入 单词 的 表示 进行 微调 。 因 此 ， 这 里 将 萎 Variable 用 于 词 的 表示 。 
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QLazy property 
def embeddings(self): 
initial = tf.random_uniform( 
[self.params.vocabulary_size, 
self.params.embedding_size], 
-1.0, 1.0) 
return tf.Variable(initiaL) 





这 里 使 用 了 MomentumOptimizer 进 行 模型 的 优化 ， 虽 然 不 够 智能 ， 但 效率 却 非常 高 。 该 优化 器 能 够 很 好 地 人 处理 大 规模 维基 百科 语料库 ， 从 而 实现 skip-gram 背 后 的 
思想 ， 能 够 比 那些 智能 的 算法 利用 更 多 的 数据 。 


QLazy_ property 
def optimize(self): 
optimizer = tf.train.MomentumOptimizer ( 
self.params. learning rate, self.params.momentum) 
return optimizer.minimize(self.cost) 





现在 ， 我 们 的 模型 唯一 缺少 的 部 分 是 分 类 器 。 这 是 成 功 的 skip-gram 模 型 的 核心 ， 下 面 来 研究 它 的 工作 原理 。 


6.2.3 ”噪声 对 比分 类 器 


对 于 skip-gram 模 型 ， 有 多 种 代价 函数 可 选 ， 其 中 有 一 种 噪声 对 比 估 计 损 失 (noise-contrastive estimation loss) 已 被 证 明 具 有 优异 的 性 能 。 理 想 情 况 下 ， 我 们 希望 预 
测 结果 与 目标 尽 可 能 地 接近 ， 而 且 与 那些 不 是 当前 单词 的 目标 词汇 具有 较 远 的 距离 。 可 以 用 softmax 分 类 器 对 此 进行 建 模 ， 但 并 不 希望 每 次 都 计算 和 训练 词汇 表 中 所 
有 单词 的 输出 。 可 考虑 的 解决 方案 是 总 使 用 一 些 新 的 随机 向 量 作 为 负 样 本 ， 也 称 为 对 比 样 本 。 经 过 足够 的 训练 迭代 ， 这 种 方法 可 以 近似 softmax 分 类 器 ， 而 且 仅 需要 
十 几 个 类 别 。TensorFlow 为 此 提供 了 一 个 便捷 的 函数 给 nn.nce_loss。 











QLazy property 
def cost(self): 
embedded = tf.nn.embedding_lLookup(self.embeddings, 
self.data) 
weight = tf.Variable(tf.truncated_normal( 
[self.params.vocabulary_size, 
self.params.embedding_size], 
stddev=1.0 / self.params.embedding_size ** 0.5)) 
bias = 
tf.Variable(tf.zeros([self.params.vocabuLlary_size])) 
target = tf.expand dims(self.target, 1) 
return tf.reduce_mean(tf.nn.nce_loss( 
weight, bias, embedded, target, 
self.params.contrastive_examples, 
self.params.vocabulary_size) ) 


6.2.4 训练 模型 





现在 ， 语 料 库 已 准备 好 ， 模 型 的 定义 也 完成 了 。 下 面 给 出 整合 所 有 功能 的 代码 。 训 练 结束 后 ， 可 将 最 终 的 词 向 量 写 入 另 一 个 文件 。 下 面 的 例子 仅 使 用 了 维基 百 
科 语 料 库 的 一 个 子 集 ， 它 在 普通 CPU 上 训练 时 长 约 % 个 小 时 。 要 使 用 完整 的 语料库 ， 可 从 下 列 链接 获取 : https//dumps.wikimedia.org'enwiki/20160501/enwiki-20160501- 
pages-meta-current.xml.bz2. 





如 你 所 见 ， 我 们 利用 了 AttrDict 类 ， 它 等 价 于 Python 的 dict， 两 者 的 区 别 在 于 ， 前 者 可 将 键 作为 属性 访问 ， 如 params.batch_size。 更 多 细 记 请 参考 第 8 章 。 
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params = AttrDict( 
vocabulary_size=10000, 
max_context=10, 
embedding _size=200, 
contrastive_examples=100, 
learning_rate=0.5, 
momentum=0.5, 
batch_size=1000, 


) 


data = tf.placeholder(tf.int32, [None]) 
target = tf.placeholder(tf.int32, [None]) 
model = EmbeddingModel(data, target, params) 


corpus = Wikipedia( 
‘https: //dumps.wikimedia.org/enwiki/20160501/' \ 
'enwiki-20160501-pages-meta-current1.xml- 
p000000010p000030303.bz2', 
' /home /user /wikipedia', 
params .vocabulary_size) 
examples = skipgrams(corpus, params.max_context) 
batches = batched(examples, params.batch_ size) 


sess = tf.Session() 
sess.run(tf.initialize_all_variables()) 
average = collections. deque(maxlen=100) 
for index, batch in enumerate(batches): 

feed dict = {data: batch[0], target: batch[1]} 

cost, _ = sess.run([model.cost, model.optimize], 
feed dict) 

average.append(cost) 

print('{}: {:5.1f}'.format(index + 1, sum(average) / 
Len(average))) 


embeddings = sess.run(model.embeddings) 
np.save('/home/user/wikipedia/embeddings.npy', embeddings) 


AAMAS DN IVINS, BAVA EY a aR. ENNUYER RE RAS. ERATE J SE RP EAA Reon, KE, WR AN AS EER sek 
EET, SEPA. BENEH T EBA ALAN FYI Te DBR A, FR SS EE CP a AE A 7 EK 
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6.3 ”序列 分 类 





序列 分 类 的 任务 是 为 整个 输入 序列 预测 一 个 类 别 标签 。 在 许多 领域 中 ， 包 括 基因 和 金融 领域 ， 这 样 的 问题 都 极为 常见 。 上 自然 语言 处 理 中 的 一 个 突出 例子 是 情绪 
分 析 ， 即 从 用 户 撰写 的 文字 预测 他 对 茶 个 给 定 话 题 的 态度 。 例 如 ， 可 以 预测 提 到 选举 中 茶 位 候选 人 的 推 文 的 情绪 ， 并 用 它 来 预测 选举 结果 。 另 一 个 例子 是 依据 评论 
预测 产品 或 电影 的 评分 。 在 NLP 社 区 ， 这 已 成 为 一 项 基准 任务 ， 因 为 评论 中 通常 包含 有 数值 评分 ， 可 以 方便 地 作为 目标 值 。 

















我 们 将 使 用 一 个 来 日 国 际 电影 数据 库 International Movie Database) 的 影评 数据 集 ， 该 数据 集 的 目标 值 是 二 元 的 一 一 正面 的 和 负面 的 。 在 该 数据 集中 ， 任 何 只 碍 
看 单词 是 否 出 现 的 朴素 方法 都 将 失效 ， 因 为 在 语言 中 通常 存在 大 量 人 否定 、 肥 语 和 模糊 性 。 我 们 将 构建 一 个 可 对 来 自 上 一 市 的 词 向 量 进行 操作 的 循环 神经 网 络 。 这 个 
循环 网 络 将 逐个 单词 地 碍 看 每 条 评论 。 依 据 最 后 的 那个 单词 的 活性 值 ， 将 训练 一 个 用 于 预测 整 条 评论 的 情绪 的 分 类 器 。 由 于 是 按照 端 到 端的 方式 训练 模型 ，RNN 将 
从 单词 中 收集 那些 对 于 最 终 分 类 最 有 价值 的 信息 ， 并 进行 编码 。 














6.3.1 Imdb 影 评 数据 集 


这 个 影评 数据 集 是 由 斯 坦 福 大 学 的 人 工 乔 能 实验 室 提供 的 : 





http//aistanford.eduw/~amaas/data/sentiment/ ， 它 是 一 个 经 过 压缩 的 tar 文 档 ， 其 中 正面 的 和 负面 的 评论 可 从 分 列 于 两 个 文件 夹 中 的 文本 文件 中 获取 。 我 们 对 这 些 文本 
进行 了 与 上 一 节 完 全 相同 的 处 理 : 利用 正则 表达 式 提 取 纯 文本 ， 并 将 其 中 的 字母 全 部 转换 为 小 写 。 





import tarfile 
import re 


class ImdbMovieReviews: 


DEFAULT_URL = \ 
‘http: //ai.stanford.edu/~amaas/data/sentiment/ 
aclImdb _vi.tar.gz' 
TOKEN_REGEX = re.compile(r'[A-Za-z]+|[!?.:,0)]') 
def init (self, cache dir, url=None): 
self. cache dir = cache dir 
self. url = url or type(self).DEFAULT_URL 


def iter (self): 
filepath = download(self._url, self._cache_dir) 
with tarfile.open(filepath) as archive: 
for filename in archive.getnames(): 
if filename.startswith('aclImdb/train/pos/'): 
yield self._read(archive, filename), True 
elif filename.startswith('aclImdb/train/ 
neg/'): 
yield self. read(archive, filename), 
False 


def read(self, archive, filename): 


with archive.extractfile(filename) as file_: 


data = file_.read().decode('utf-8') 
data = type(self).TOKEN_REGEX.findall(data) 
data = [x.lower() for x in data] 


return data 





6.3.2 ”使 用 词 向 量 艇 入 





在 词 问 量 艇 入 一 记 中 ， 曾 解释 过 ， 钦 入 表示 比 独 热 编 码 的 词语 具有 更 丰 宣 的 语义 。 因 此 ， 如 果 使 RNN 工 作 在 影评 的 被 艇 入 的 而 非 独 热 编 码 的 单词 上 ， 则 有 助 于 
RNN 获 得 更 好 的 性 能 。 为 此 ， 可 使 用 上 一 节 中 计算 得 到 的 词汇 表 和 藤 入 表示 。 相 关 的 代码 应 当 非 帝 简 单 。 我 们 仅 利 用 词汇 表 确 定单 词 的 索引 ， 并 利用 该 索引 找到 正 
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确 的 词 同 量 。 下 面 展 示 的 这 个 类 还 会 对 序列 进行 填充 ， 使 它们 都 拥有 相同 的 长 度 ， 以 便 将 更 容易 地 将 多 个 影评 数据 批量 送 入 网 络 。 


import bz2 
import numpy as np 


class Embedding: 


def _init__(self, vocabulary_path, embedding_path, 
length): 
self._embedding = np. load(embedding_path) 
with bz2.open(vocabulary_path, 'rt') as file: 
sélf. vocabulary = {k.strip(): i for i, k in 


enumerate(file_)} 
self. length = Length 


def _call_(self, sequence): 
data = np.zeros((self._length, 
self._embedding.shape[1])) 
indices = [self._vocabulary.get(x, 9) for x in 
sequence | 
embedded = self. _embedding[ indices ] 
data[:len(sequence)] = embedded 
return data 


@property 


def dimensions(self): 
return self. embedding. shape[1] 


6.3.3 序列 标注 模型 





我 们 希望 对 文本 序列 所 体现 的 情绪 进行 分 类 。 由 于 这 是 一 个 有 监督 学 习 问题 ， 所 以 为 该 模型 传 入 两 个 占 位 符 : 一 个 用 于 输入 数据 data 或 输入 序列 ) ， 男 一 个 
用 于 目标 值 target《〈 或 情绪 ) 。 此 外 ， 还 传 入 了 包 会 配置 参数 “如 循环 层 的 扩 寸 、 单 元 架构 〈LSTM、GRU 等 ) ) 的 params 对 象 ， 以 及 所 要 使 用 的 优化 器 。 下 面具 体 
实现 相关 属性 并 对 其 进行 详细 讨论 。 
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class SequenceClassificationModelL: 


def _init_(self, data, target, params): 
self.data = data 
self.target = target 
self.params = params 
self.prediction 
self.cost 
self.error 
self.optimize 


@lazy property 
def length(self): 
pass 


@lazy property 
def prediction(self): 
pass 


@lazy_ property 


def cost(self): 
pass 


@lazy_ property 
def error(self): 
pass 


@lazy property 
def optimize(self): 
pass 


@staticmethod 
def _last_relevant(output, Length): 
pass 





首先 获取 当前 批 数据 中 各 序列 的 长 度 。 该 信息 是 必须 要 了 解 的 ， 因 为 数据 是 以 单个 张 量 的 形式 到 来 的 ， 各 序列 需要 以 最 长 的 影评 长 度 为 准 进行 长 度 补 0 处 理 。 
我 们 并 不 追踪 每 条 影评 的 序列 长 度 ， 而 是 在 TensorFlow 中 动态 计算 。 为 了 获取 每 个 序列 的 长 度 ， 利 用 绝对 值 中 的 最 大 值 对 词 同 量 进行 缩减 。 对 于 零 回 量 ， 所 得 到 的 
标量 为 0， 而 对 任意 实 型 词 向 量 ， 对 应 的 标量 为 一 个 大 于 0 的 实数 。 然 后 利用 萎 sign〈) 将 这 些 值 离散 化 为 0 或 1， 并 将 这 些 结果 沿 时 间 步 相 加 ， 从 而 得 到 每 个 序列 的 长 
度 。 最 终 得 到 的 张 量 的 长 度 与 批 数据 容量 相同 ， 且 以 标量 形式 包含 了 每 个 序列 的 长 度 。 

















@lazy property 
def length(self): 
used = tf.sign(tf.reduce_max(tf.abs(self.data), 
reduction_indices=2) ) 
length = tf.reduce_sum(used, reduction_indices=1) 
length = tf.cast(length, tf.int32) 
return Length 





63.4 来 目 最 后 相关 活性 值 的 softmax 层 





对 于 预测 ， 我 们 仍 像 往常 一 样 定义 一 个 RNN。 不 过 ， 我 们 希望 通过 将 一 个 softmax 层 堆 喇 到 最 后 一 个 活性 值 之 上 ， 以 实现 对 RNN 的 结构 扩充 。 对 于 RNN， 我 们 使 
用 params 对 象 中 定义 的 单元 类 型 和 单元 数量 。 利 用 已 定义 的 length 属 性 仅 向 RNN 提 供 批 数 据 的 至 多 length 行 。 之 后 ， 获 取 每 个 序列 的 最 后 输出 活性 值 ， 并 将 其 送 入 一 个 
softmax 层 。 如 果 读 者 一 直 在 跟随 本 书 学 习 ， 现 在 定义 softmax 层 应 当 是 轻而易举 的 事 。 





请 注意 ， 对 于 训练 批 数 据 中 的 每 个 序列 ，RNN 最 后 的 相关 输出 活性 值 都 有 一 个 不 同 的 索引 。 这 是 因为 每 条 影评 的 长 度 都 不 同 。 我 们 已 经 知道 了 每 个 序列 的 长 
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度 ， 那 么 如 何 利 用 它 对 最 后 的 活性 值 进行 选择 ? 这 里 的 问题 在 于 希望 在 时 间 步 这 个 维度 上 ， 也 就 是 在 批 数据 形 状 sequencesxtime stepsxword vectors 的 第 2 个 维度 上 建 
WRI. 


@lazy property 
def prediction(self): 
# 循 环 神经 网 络 
output, = rnn.dynamic_rnn( 
self.params.rnn_cell(self.params.rnn_hidden), 
self .data, 
dtype=tf.float32, 
sequence_lLength=self. length, 


) 
last = self._last_relevant(output, self. length) 


# Softmax= 

num_classes = int(self.target.get_shape()[1]) 

weight = tf.Variable(tf.truncated_normal( 
[self.params.rnn_hidden, num_classes], stddev=0.01)) 

bias = tf.Variable(tf.constant(0.1, shape=[num_classes])) 

prediction = tf.nn.softmax(tf.matmul( last, weight) + 


bias) 
return prediction 


截至 本 书 撰写 之 时 ，TensorFlow 仅 支持 用 芷 gather O 沿 第 1 维 建立 索引 。 因 此 ， 我 们 将 输出 活性 值 的 形状 sequencesxtime_stepsxword_vectors 的 前 两 维 扁平 化 
(flatten〉， 并 向 其 添加 序列 长 度 。 实 际 上 ， 我 们 只 需 添 加 ]ength 一 1， 这 样 便 可 选择 最 后 的 有 效 时 间 步 。 


@staticmethod 

def _last_relevant(output, length): 
batch_size = tf.shape(output)[0] 
max_Length = int(output.get_shape()[1]) 


output_size = int(output.get_shape()[2]) 
index = tf.range(0, batch _size) * max_length + (Length - 


1) 
flat = tf.reshape(output, [-1, output_size]) 


relevant = tf.gather(flat, index) 
return relevant 


现在 即将 能 够 用 TensorFlow 进 行 整 个 模型 的 端 到 端 训练 ， 将 误差 经 过 softmax 层 和 所 使 用 的 RNN 时 间 步 反 向 传播 。 训 练 中 唯一 缺少 的 是 一 个 代价 函数 。 


6.3.5 梯度 裁剪 


JE 


对 于 序列 分 类 问题 ， 我 们 可 使 用 任何 于 分 类 有 意义 的 代价 函数 ， 因 为 模型 的 输出 只 是 一 个 在 可 用 的 所 有 类 别 上 的 概率 分 布 。 在 本 例 中 ， 两 个 类 别 分 别 是 正面 情 
SAAN Te © PRATHER LE ENAERE IT EA. 

为 将 代价 函数 最 小 化 ， 可 使 用 配置 中 定义 的 优化 器 。 但 是 ， 我 们 准备 通过 增加 梯度 裁 勇 〈gradient clipping) 对 目前 所 学 习 到 的 结果 进行 改善 。RNN 训 练 难度 较 
大 ， 而 且 如 果 不 同 超 参数 搭配 不 当 ， 权 值 极 容 易 发 散 。 梯 度 裁 筋 的 主要 思想 是 将 梯度 值 限制 在 一 个 合理 的 范围 内 。 按 照 这 种 方式 ， 便 可 对 最 大 权 值 的 更 新 进行 限 
制 。 
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@lazy_ property 
def cost(self): 

cross entropy = -tf.reduce_sum(self.target * 
tf. log(self.prediction) ) 

return cross entropy 


@lazy property 
def optimize(self): 
gradient = 
self.params.optimizer.compute_gradients(self.cost) 
if self.params.gradient_clipping: 
Limit = self.params.gradient_clipping 
gradient = [ 
(tf.clip by value(g, -limit, Limit), v) 
if g is not None else (None, v) 
for g, v in gradient] 
optimize = 
self.params.optimizer.apply_gradients(gradient) 
return optimize 


@lazy property 
def error(self): 


mistakes = tf.not_equal( 
tf.argmax(self.target, 1), 
tf.argmax(self.prediction, 1)) 
return tf.reduce _mean(tf.cast(mistakes, tf.float32)) 





TensorFlow 支 持 利 用 每 个 优化 器 实例 提供 的 compute gradients () 函数 进行 推演 。 这 样 ， 就 可 以 对 梯度 进行 修改 ， 并 通过 apply gradients ©) 函数 应 用 权 值 的 变 
化 。 对 于 梯度 裁 甬 ， 如 果 梯 度 分 量 小 于 -Imit， 则 将 它们 设置 为 -imit， 知 梯度 分 量 大 于 lmit， 则 将 它们 设置 为 jmit。 唯 一 需要 一 点 技巧 的 地 方 是 TensorFlow 中 的 导数 可 取 
为 None， 表 示 某 个 变量 与 代价 函数 没有 关系 。 虽 然 从 数学 上 讲 ， 这 些 导数 应 为 零 癌 量 ， 但 使 用 None 却 有 利于 内 部 的 性 能 优化 。 对 于 那些 情形 ， 我 们 仅 将 None 值 传 
回 。 











6.3.6 ”训练 模型 


下 面 开始 训练 上 一 节 中 定义 的 模型 。 正 如 之 前 所 说 的 ， 我 们 准备 将 影评 逐个 单词 地 送 入 循环 神经 网 络 ， 因 此 每 个 时 间 步 都 是 一 个 由 词 向 量 构成 的 批 数据 。 对 上 
一 节 中 的 batched〈) 函数 进行 改造 ， 使 其 可 碍 找 词 癌 量 ， 并 将 所 有 的 序列 进行 长 度 补 齐 。 








def preprocess batched(iterator, length, embedding, 
batch size): 
iterator = iter(iterator) 
while True: 
data = np.zeros((batch_ size, length, 
embedding.dimensions) ) 
target = np.zeros((batch_size, 2)) 
for index in range(batch_size): 
text, label = next(iterator) 
data[index] = embedding(text) 
target[index] = [1, 0] if label else [0, 1] 
yield data, target 


现在 就 可 轻松 地 开始 训练 模型 了 ， 具 体 步 又 包括 : 定义 超 参数 、 加 载 数 据 集 和 词 向 量 ， 并 将 模型 运行 在 经 过 预 处 理 的 训练 批 数 据 上 。 
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params = AttrDict( 
rnn_cell=GRUCeLL, 
rnn_hidden=300, 
optimizer=tf.train.RMSPropOptimizer(0.002), 
batch_size=20, 


reviews = ImdbMovieReviews('/home/user/imdb' ) 
length = max(len(x[0]) for x in reviews) 


embedding = Embedding( 
'/home/user/wikipedia/vocabulary.bz2', 
'/home/user/wikipedia/embedding,npy', length) 
batches = preprocess_ batched(reviews, Length, embedding, 
params.batch_size) 


data = tf.placeholder(tf.float32, [None, length, 


embedding. dimensions |) 
target = tf.placeholder(tf.float32, [None, 2]) 
model = SequenceCLlassificationModel(data, target, params) 


sess = tf.Session() 

sess.run(tf.initialize_all_variables()) 

for index, batch in enumerate(batches): 
feed = {data: batch[0], target: batch[1i]} 
error, = sess.run([model.error, model.optimize], feed) 
print('{}: {:3.1f}%'.format(index + 1, 100 * error)) 





IERT, PRAY BE OAV A ERE Pe HB, ME ial eee WRIA RE IR A AR A OS el fe ee, AT SEL skip- 


gran 模 型 的 word2vec 项 目 (1 加载 预 训练 的 词 向 量 ， 也 可 从 与 之 非常 类 似 的 来 自 斯 坦 福 NLP 研 究 组 的 Glove 模 型 外 加 载 词 向 量 。 无 论 选 择 哪 一 种 模型 ， 都 可 从 网 上 找 
到 Python 加 载 器 。 





这 样 就 拥有 了 这 个 模型 ， 那 么 可 以 用 它 做 哪些 事 ? 在 Kagsle 这 个 车 名 的 主办 数据 科学 挑战 赛 的 网 站 上 有 一 个 开放 学 习 竞 赛 ， 它 采用 的 是 与 本 节 中 完全 相同 的 
IMDB 影评 数据 。 因 此 ， 如 果 你 有 兴趣 将 自己 的 预测 结果 与 他 人 的 进行 比较 ， 可 在 他 们 的 测试 集 上 运行 该 模型 ， 并 将 结果 上 载 至 httpsVwww.kagsle.conmyc/word2vec-nlp- 
tutorial. 





[1] https://code. google.convarchive/p/word2vec/ 
[2] http://nlp.stanford.edu/projects/glove/ 
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6.4 序列 标注 


在 上 一 节 中 ， 我 们 使 用 LSTM 网 络 ， 并 在 最 后 的 活性 值 之 上 堆 琶 一 个 softmax 层 ， 构 建 了 一 个 序列 分 类 模型 。 在 此 基础 上 ， 现 在 开始 处 理 一 个 难度 更 大 的 问题 
一 一 序列 标注 (sequence labeling) 。 该 设置 问题 与 序列 分 类 不 同 ， 因 为 它 需 要 对 输入 序列 的 每 一 帧 都 预测 一 个 类 别 。 











例如 ， 考 虑 手写 文字 识别 。 每 个 单词 都 是 一 个 字母 序列 ， 我 们 当然 可 以 单独 对 每 个 字母 进行 分 类 ， 但 人 类 的 语言 具有 很 强 的 结构 性 ， 这 一 点 是 可 以 善 加 利用 
的 。 如 果 查 看 一 些 手 写 体 样本 ， 会 发现 有 些 字符 是 很 难 单独 识别 的 ， 如 n、m 和 liu。 然而 ， 依 据 其 近邻 的 字母 构成 的 上 下 文 来 识别 ， 就 会 容易 许多 。 在 本 节 中 ， 我 
们 将 通过 RNN 来 利用 字母 之 间 的 依赖 性 ， 并 构建 一 个 比较 稳健 的 OCR〈Optical Character Recognition, FFERI) 系统 。 











6.4.1 OCR 数据 集 


作为 一 个 序列 标注 问题 的 例子 ， 我 们 先 了 解 一 下 由 MIT 的 口语 系统 研究 组 的 Rob Kassel 收 集 的 ， 并 由 斯 坦 福 大 学 人 工 智能 实验 室 的 Ben Taskar 预 处 理 的 OCR 数 
据 集 。 该 数据 集 包 含 了 大 量 单独 的 手写 字母 ， 每 个 样本 对 应 一 幅 16x8 像 素 的 二 值 图 像 。 这 些 字母 被 组 合 为 一 些 序 列 ， 且 每 个 序列 都 对 应 一 个 单词 。 整 个 数据 集 共 
包含 约 6800 个 、 长 度 至 多 为 14 的 单词 。 








下 面 给 出 三 个 该 OCR 数据 集中 的 序列 样本 。 这 几 个 单词 分 别 为 cafeteria、puzzlement 和 unexpected。 这 些 单词 的 首 字 母 并 未 包含 在 数据 集中 ， 因 为 它们 都 是 大 写 
的 。 所 有 序列 都 被 填充 为 最 大 长 度 14。 为 了 简化 工作 量 ， 该 数据 集中 仪 包含 小 写字 母 ， 这 正 是 一 些 单词 中 不 含 首 字母 的 原因 。 


“pee A ULL 
wz Em o 
AEAPECFER 0 


该 数据 集 可 从 httpVaistanford.edu~btaskarocr 上 获取 ， 写 对 应 于 一 个 用 gzip 压 缩 的 、 内 容 用 Tab 分 隔 的 文本 文件 ， 访 文件 可 利用 Python 的 csv 模 块 直接 读 取 。 该 文 
件 中 每 行 都 表示 该 数据 集中 一 个 字母 的 属性 ， 如 了 号 、 标 签 、 像 素 值 、 单 词 中 下 一 个 字母 的 ID 号 等 。 














import gzip 
import csv 
import numpy as np 


class OcrDataset: 


由 MIT 的 口语 系统 研究 组 的 Rob Kassel 收 集 的 ， 并 由 斯 坦 福 大 学 人 工 智 能 实验 室 的 
Ben Taskar 预 处 理 的 OCR 数据 集 ， 每 个 样本 中 都 包含 了 一 个 单词 中 经 过 归 一 化 的 
字母 ， 且 长 度 均 被 填充 为 14。 该 数据 集中 仅 包含 小 写字 母 ， 大 写字 母 均 为 移 除 。 
下 载 页 面 : http://ai.stanford.edu/~btaskar/ocr/ 


nnn 


URL = 'http://ai.stanford.edu/~btaskar/ocr/ 
letter .data.gz' 


def init (self, cache dir): 

path = download(type(self).URL, cache dir) 

lines = self. _read(path) 

data, target = self. _parse(lines) 

self.data, self.target = self. pad(data, target) 
@staticmethod 
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def read(filepath): 
with gzip.open(filepath, 'rt') as file: 
reader = csv.reader(file_, delimiter='\t') 
lines = List(reader) 
return Lines 


@staticmethod 
def _parse( lines): 
lines = sorted(lines, key=lambda x: int(x[0])) 
data, target = [], [] 
next_ = None 
for line in lines: 
if not next_: 
data. append([ ]) 
target.append([ ]) 


else: 
assert next_ == int(line[0]) 
next_ = int(line[2]) if int(line[2]) > -1 else 
None 
pixels = np.array([int(x) for x in Lline[6:134]]) 
pixels = pixels.reshape((16, 8)) 
data[-1].append(pixels) 
target[-1].append(line[1]) 
return data, target 
@staticmethod 


def pad(data, target): 

max_length = max(len(x) for x in target) 

padding = np.zeros((16, 8)) 

data = [x + ([padding] * (max_length - Len(x))) for 
x in data] 

target = [x + ([''] * (max_length - len(x))) for x 
in target] 

return np.array(data), np.array(target) 





首先 对 那些 下 一 个 字母 的 ID 值 进行 排序 ， 以 便 能 够 按照 正确 的 顺序 读 取 每 个 单词 中 的 字母 。 然 后 继续 收集 字母 ， 直 到 下 一 个 ID 对 应 的 字段 未 被 设置 为 止 。 出 
现 这 种 情况 时 ， 我 们 开始 读 取 一 个 新 的 序列 。 读 取 完 目标 字母 及 其 数据 像素 后 ， 用 零 图 像 对 序列 进行 填充 ， 以 使 其 能 够 纳入 两 个 较 大 的 包含 目标 字母 和 所 有 像素 
数据 的 NumPy 数 组 中 。 


6.4.2 ”时间 步 之 间 共 享 的 softmax 层 








现在 ， 数 据 和 目标 数组 中 都 包含 了 序列 ， 每 个 目标 字母 对 应 于 一 个 图 像 帧 。 为 了 每 帧 数据 获取 一 个 预测 结果 的 最 简单 的 方法 是 对 RNN 进 行 扩展 ， 在 每 个 字母 
的 输出 之 上 添加 一 个 softmax 分 类 器 。 这 非 第 类 似 于 上 一 贡 序 列 分 类 问题 中 所 采用 的 模型 ， 唯 一 的 区 别 在 于 分 类 占 是 对 每 帧 数据 而 非 整 个 序列 进行 评估 的 。 
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class SequenceLabeLlingModeL: 


def init (self, data, target, params): 
self.data = data 
self.target = target 
self.params = params 
self.prediction 
self.cost 
self.error 
self .optimize 


@lazy property 
def length(self): 
pass 


@lazy_ property 
def prediction(self): 
pass 


@lazy property 
def cost(self): 
pass 


@lazy property 
def error(self): 
pass 


@lazy property 
def optimize(self): 
pass 





下 面具 体 实现 序列 标注 方法 。 首 先 ， 需 要 计算 序列 的 长 度 。 在 上 一 节 中 ， 该 工作 已 经 完成 ， 因 此 这 里 不 再 资 


@lazy property 
def length(self): 
used = tf.sign(tf.reduce_max(tf.abs(self.data), 
reduction_indices=2) ) 
length = tf.reduce_sum(used, reduction_indices=1) 
length = tf.cast(length, tf.int32) 
return Length 








现在 进入 预测 部 分 ， 这 是 与 序列 分 类 模型 存在 主要 差别 的 地 方 。 要 将 一 个 softmax 层 添加 到 所 有 帧 上 有 两 种 方法 : BORAT A WSL A aes, Be 
令 所 有 帧 共享 同一 个 分 类 器 。 由 于 对 第 3 个 字母 进行 分 类 并 不 比 对 第 8 个 字母 分 类 难度 更 大 ， 所 以 采取 后 一 种 方式 是 比较 合理 的 。 按 照 这 种 方式 ， 分 类 器 权 值 在 训 
练 中 被 调整 的 次 数 更 多 ， 因 为 需要 对 单词 中 的 每 个 字母 进行 训练 。 














要 在 TensorFlow 中 实现 一 个 共享 层 ， 我 们 需要 运用 一 点 小 技巧 。 一 个 全 连接 层 的 权 值 矩 阵 的 维 数 始 终 为 batch size*in size*out size， 但 现在 有 两 个 输入 维 
batch size 和 sequence _steps， 我 们 希望 在 这 两 个 维度 上 对 权 值 矩阵 进行 更 新 。 











要 解决 这 个 问题 ， 可 以 令 这 一 层 的 输入 《〈 本 例 中 文 RNN 的 输出 活性 值 ) 扁平 为 形状 batch Size*sequence steps*in size。 按 照 这 种 方式 ， 对 于 权 值 矩阵 而 言 ， 它 看 
起 来 就 像 是 一 个 较 大 的 批 数 据 。 当 然 ， 还 必须 对 结果 的 形状 进行 调整 ， 即 反 局 平 化 (unflatten〉。 
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@lazy property 
def prediction(self): 


output, _ = rnn.dynamic_rnn( 
GRUCeLL(self.params.rnn_hidden), 
self.data, 


dtype=tf.float32, 
sequence_Length=self. length, 
) 
# Softmax = 
max_Length = int(self.target.get_shape()[1]) 
num_classes = int(self.target.get_shape()[2]) 
weight = tf.Variable(tf.truncated_normal( 
[self.params_rnn_hidden, num_classes], stddev=0.01)) 
bias = tf.Variable(tf.constant(0.1, shape=[num_classes])) 
# mE, AAR NAR A T A lal & 
output = tf.reshape(output, [-1, self.params.rnn_hidden]) 
prediction = tf.nn.softmax(tf.matmul(output, weight) + 
bias) 
prediction = tf.reshape(prediction, [-1, max_length, 
num_classes]) 
return prediction 





FALE PSPS, RE TAT Ze PR BI RS ABI BIDET EARE, GA I-A pet, A EA EE EAT OP. PR 
而 ，ttreduce mean O 在 这 里 无 法 使 用 ， 因 为 它 要 依据 张 量 的 长 度 〈 即 序列 的 最 大 长 度 ) 进行 归 一 化 ， 而 我 们 希望 按照 之 前 计算 的 实际 序列 长 度 进 行 归 一 化 。 
此 ， 可 手工 调用 ttreduce_ sum O 和 一 个 除法 运算 来 获得 正确 的 均值 。 


QLazy property 
def cost(self): 

# HE It AN 

cross_entropy = self.target * tf.log(self.prediction) 

cross entropy = -tf.reduce_sum(cross entropy, 
reduction_indices=2) 

mask = tf.sign(tf.reduce_max(tf.abs(self.target), 
reduction_indices=2) ) 

cross entropy *= mask 

# 依据 序列 实际 长 度 计 算 均 值 

cross_entropy = tf.reduce sum(cross_entropy， 
reduction_indices=1) 

cross_entropy /= tf.cast(self.length, tf.float32) 

return tf.reduce mean(cross_ entropy) 


EGA PRR AL, BRT a RE PET RE. ME, tharemax O 针对 的 是 轴 2 而 非 轴 1。 然 后 ， 对 各 帧 进行 填充 ， 并 依据 序列 的 实际 长 度 计算 均值 。 最 
后 的 {freduce mean ©) 对 批 数据 中 的 所 有 单词 取 均 值 。 
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@lazy property 
def error(self): 

mistakes = tf.not_equal( 

tf.argmax(self.target, 2), 

tf.argmax(self.prediction, 2)) 

mistakes = tf.cast(mistakes, tf.float32) 

mask = tf.sign(tf.reduce _max(tf.abs(self.target), 
reduction_indices=2) ) 

mistakes *= mask 

# 依据 序列 实际 长 度 计 算 均 值 

mistakes = tf.reduce_sum(mistakes, reduction_indices=1) 

mistakes /= tf.cast(self.length, tf.float32) 

return tf.reduce_mean(mistakes) 


TensorFlow 的 自动 导数 计算 的 一 大 优点 是 可 像 对 序列 分 类 问题 那样 对 该 模型 使 用 相同 的 优化 运算 ， 我 们 所 要 做 的 仅仅 是 将 新 的 代价 函数 代入 。 从 现在 开始 ， 
我 们 将 对 所 有 的 RNN 运 用 梯度 裁 甬 ， 因 为 这 种 措施 能 够 防止 训练 发 散 ， 同 时 不 会 产生 任何 负面 影 啊 。 


@lazy_property 
def optimize(self): 
gradient = 
self.params.optimizer.compute_ gradients(self.cost) 
if self.params.gradient_clipping: 
limit = self.params.gradient_clipping 
gradient = [ 
(tf.clip by value(g, -limit, Limit), v) 
if g is not None else (None, v) 
for g, v in gradient] 
optimize = 
self.params.optimizer.apply_gradients(gradient) 
return optimize 


6.4.3 ”训练 模型 
现在 可 将 到 目前 为 止 介绍 的 所 有 部 分 整合 到 一 起 ， 开 始 训练 模型 。 通 过 上 一 节 的 学 习 ， 相 信 读 者 对 导入 和 配置 参数 已 经 非常 熟悉 。 我 们 利用 get dataset © 下 


载 手写 体 图 像 并 进行 预 处 理 ， 这 也 正 是 将 小 写字 母 编码 为 独 热 编码 向 量 的 地 方 。 经 过 编码 之 后 ， 随 机 打 乱 数据 的 顺序 ， 以 便 在 划分 训练 集 和 测试 集 时 得 到 一 个 无 
偏 的 结果 。 





import random 
from tensorflow.models.rnn import rnn 
from tensorflow.models.rnn import rnn_cell 


params = AttrDict( 
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rnn_cell=rnn_cell.GRUCell, 

rnn_hidden=300, 
optimizer=tf.train.RMSPropOptimizer(0.002), 
gradient_clipping=5, 

batch_size=10, 

epochs=20, 

epoch_size=50, 


def get_dataset(): 

dataset = OcrDataset('~/.dataset/book/ocr' ) 

H 将 图 像 扁 乎 化 为 同 量 

dataset.data = dataset.data.reshape(dataset.data.shape[ : 
2] * (4,2) 


# 对 目标 值 进行 独 热 编码 
target = np.zeros(dataset.target.shape + (26,)) 
for index, Letter in np.ndenumerate(dataset.target): 

if letter: 

target[index][ord(letter) - ord('a')] = 1 

dataset.target = target 
# 随机 打 乱 样本 的 顺序 
order = np.random.permutation(len(dataset.data) ) 
dataset.data = dataset.data[order ] 
dataset.target = dataset.target[order ] 
return dataset 


E 划分 训练 集 和 测试 集 

dataset = get_dataset() 

split = int(0.66 * Len(dataset.data)) 

train_data, test data = dataset.data[:split], 
dataset.data[split: ] 

train_target, test_target = dataset.target[:split], 
dataset.target[spLlit: ] 


# 数据 流 图 

_, length, image size = train data.shape 

num_classes = train_target.shape[2] 

data = tf.placeholder(tf.float32, [None, length, image_size]) 
target = tf.placeholder(tf.float32, [None, length, 
num_classes]) 

model = SequenceLabelLlingModel(data, target, params) 


当 用 1000 个 单词 训练 之 后 ， 我 们 的 模型 在 测试 集 上 的 错误 率 已 降 至 约 9%。 这 个 结果 不 算 太 差 ， 但 仍 有 提升 的 空间 。 





我 们 目前 使 用 的 模型 与 用 于 序列 分 类 的 模型 非常 相似。 笔者 是 有 意 而 为 之 的 ， 目 的 是 帮助 读者 了 解 为 将 已 有 模型 用 于 解决 新 间 题 ， 应 做 何 种 修改 。 在 男 一 个 
问题 上 的 有 效 解决 方案 对 于 一 个 新 问题 也 极 有 可 能 比 预想 的 要 有 效 。 然 而 ， 我 们 完全 可 以 做 得 更 好 ! 下 一 市 将 笃 试 利用 一 种 更 高 级 的 循环 神经 网 络 染 构 改 进 现 有 
HER o 
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OCR 数据 集 上 的 LSTM 误 差 
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6.4.4 双向 RNN 


如 何 对 用 RNN 加 softmax 架 构 在 OCR 数据 集 上 得 到 的 结果 进行 改进 ? 不 妨 重 新 审视 一 下 使 用 RNN 的 动机 。 我 们 为 OCR 数据 集 选择 这 一 架构 的 原因 在 于 单词 中 的 
相 邻 字母 之 间 存 在 依赖 关系 《或 互信 息 ) 。RNN 会 将 关于 在 同一 单词 之 前 全 部 输入 的 信息 保存 到 隐 仿 活性 值 中 。 


如 果 能 够 想到 这 一 点 ， 就 会 意识 到 在 模型 中 循环 连接 对 于 前 几 个 字母 的 分 类 是 没有 太 大 帮助 的 ， 因 为 网 络 疝 无 大 量 输入 以 从 中 推断 出 额外 的 信息 。 在 序列 分 
类 任务 中 ， 这 并 不 是 一 个 问题 ， 因 为 网 络 在 决 集 之 前 能 够 看 到 所 有 的 帧 。 在 序列 标注 任务 中 ， 可 利用 双向 RNN (bidirectional RNN) 克服 RNN 的 这 个 缺陷 ， 这 项 技 
术 在 大 干 分 类 任务 中 都 保持 着 最 蜗 的 水 平 。 


双 同 RNN 的 思想 非常 简单 。 它 共有 两 个 RNN 观 测 输 入 序列 ， 一 个 按照 通常 的 顺序 从 左 端 读 取 单词 ， 而 男 一 个 按照 相反 的 顺序 从 右 端 读 取 单 词 。 这 样 ， 在 每 个 
时 间 步 ， 残 可 得 到 两 个 输出 活性 值 。 在 将 它们 送 入 共 至 的 softmax 层 之 前 ， 可 将 两 者 拼接 在 一 起 。 利 用 这 种 架构 ， 分 类 紫 便 可 从 每 个 字母 获取 完整 的 单词 信息 。 
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双 回 循环 神经 网 络 








那么 如 何 用 TensorFlow 实 现 双向 RNN? 实际 上 TensorFlow 中 已 有 了 一 个 实现 版 本 一 一 tfmodelrmn.bidirectional rnn。 但 是 ， 我 们 希望 学 习 如 何 自 行 构建 复杂 模型 ， 
因此 下 面 来 实现 这 种 模型 。 笔 者 将 引导 你 完成 各 个 步 又。 首先 ， 将 预测 属性 划分 到 两 个 函数 中 ， 以 便 眼 下 只 关注 较 少 的 内 容 。 





QLazy property 

def prediction(self): 
output = self. _bidirectional_rnn(self.data, self.length) 
num_classes = int(self.target.get_shape()[2]) 
prediction = self. shared _softmax(output, num_classes) 
return prediction 


def bidirectional_rnn(self, data, length): 
pass 


def shared softmax(self, data, out_size): 
pass 





-ETHIA_shared_softmax O 函数 的 实现 比较 容易 : 在 之 前 的 预测 属性 中 ， 我 们 已 经 有 了 相关 代码 。 区 别 在 于 现在 是 从 传 入 该 函数 的 张 量 data 推 断 输 入 尺寸 。 依 
照 这 种 方式 ， 可 在 必要 时 复 用 其 他 架构 的 函数 ， 然 后 可 以 利用 相同 的 局 平 化 技巧 在 所 有 的 时 间 步 中 共有 至 同一 个 softmax 层 。 
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aef _shared_softmax(self, data, out_size): 
max_Length = int(data.get_shape()[1]) 
in_size = int(data.get_shape()[2]) 
weight = tf.Variable(tf.truncated_normal( 
[in_size, out_size], stddev=0.01)) 
bias = tf.Variable(tf.constant(0.1, shape=[out_size])) 
# 扁平 化 ， 以 将 相同 的 权 值 应 用 到 所 有 的 时 间 步 
flat = tf.reshape(data, [-1, in_size]) 
output = tf.nn.softmax(tf.matmul(flat, weight) + bias) 
output = tf.reshape(output, [-1, max_length, out_size]) 
return output 


下 面 进入 真正 有 趣 的 环节 一 一 实现 双向 RNN。 如 你 所 见 ， 我 们 利用 mn.dynamic_ mn 创建 了 两 个 RNN。 前 向 网 络 对 我 们 而 言 非常 熟悉 ， 但 后 向 网 络 是 全 新 的 。 


我 们 并 不 将 数据 送 入 后 向 RNN， 而 是 首先 将 序列 反 转 。 这 样 做 要 比 实 现 一 个 新 的 用 于 反 辐 传递 的 RNN 运 算 更 加 容易 。TensorFlow 提 供 了 tfreverse sequence () 
函数 ， 它 可 帮助 我 们 完成 对 所 使 用 的 帧 数据 中 至 多 sequence lensths 帧 的 反 转 操作 。 请 注意 ， 在 本 书 撰写 之 时 ， 该 函数 要 求 Sequence lengths 参 数 为 Int64 类 型 的 张 量 。 
在 未 来 的 版 本 中 ， 极 有 可 能 也 支持 该 参数 为 nt32 类 型 上 ， 且 只 需 传 入 setflength 即 可 。 


def bidirectional _rnn(self, data, length): 
Length 64 = tf.cast(length, tf.int64) 
forward, _ = rnn.dynamic_rnn( 
cell=self.params.rnn_cell(self.params.rnn_hidden), 
inputs=data, 
dtype=tf.float32, 


sequence_lLength=Length, 
scope='rnn-forward' ) 
backward, _ = rnn.dynamic_rnn( 
cell=self.params.rnn_cell(self.params.rnn_hidden), 
inputs=tf.reverse sequence(data, length 64, 
seq dim=1), 
dtype=tf.float32, 
sequence_Length=self. length, 
scope='rnn-backward' ) 
backward = tf.reverse_sequence(backward, length 64, 
seq dim=1) 
output = tf.concat(2, [forward, backward]) 
return output 





这 里 也 使 用 了 scope 参 数 ， 为 什么 需要 它 ? 第 3 章 曾 解释 过 ， 数 据 流 图 中 的 节点 是 拥有 名 称 的 。scope 是 rnn dynamic cell 所 使 用 的 变量 scope 的 名 称 ， 其 默认 值 为 
RNN。 现 在 由 于 我 们 有 两 个 参数 不 同 的 RNN， 所 以 它们 需要 有 不 同 的 域 。 


将 反 转 的 序列 送 入 后 同 RNN 后 ， 我 们 再 次 将 网 络 的 输出 反 转 ， 以 与 前 同和 输出 对 齐 。 然 后 治 着 RNN 的 神经 元 输出 的 维度 将 这 两 个 张 量 拼接 在 一 起 ， 并 将 其 返 
回 。 例 如 ， 当 批 数 据 矿 寸 为 90， 每 个 RNN 有 300 个 隐藏 单元 ， 所 有 单词 至 多 包含 14 个 字母 时 ， 所 得 到 张 量 的 形状 为 30x14x600。 


非常 酷 ， 这 样 我 们 残杀 手 构 建 了 自己 的 第 一 个 由 多 个 RNN 组 成 的 架构 ! 下 面 来 检查 利用 上 一 节 的 训练 代码 能 够 使 这 个 模型 达到 何 种 性 能 。 通 过 比较 两 个 预测 
误差 图 ， 可 以 看 出 ， 双 向 模型 具有 更 优 的 性 能 。 在 接收 1000 个 单词 之 后 ， 它 在 测试 集 上 对 字母 的 识别 错误 率 已 经 低 至 4%。 
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总 结 一 下 ， 在 本 节 中 ， 我 们 学 习 了 如 何 利用 RNN 完 成 序列 标注 任务 ， 并 了 解 了 该 任务 与 序列 分 类 任务 的 差异 ， 即 我 们 希望 得 到 一 个 能 够 接收 RNN 的 输出 并 为 
所 有 时 间 步 所 共享 的 分 类 器 。 











通过 增加 第 二 个 从 后 向 前 访问 序列 的 RNN， 并 将 每 个 时 间 步 的 输出 进行 整合 ， 模 型 的 性 能 能 够 得 到 显著 提升 ， 这 是 因为 在 对 每 个 字母 进行 分 类 时 ， 整 个 序列 
恩 都 是 可 用 的 。 


在 下 一 节 中 ， 我 们 将 介绍 如 何 用 非 监 督 的 方式 训练 RNN 模 型 ， 以 实现 语言 的 学 习 。 





[1] 从 TensorFlow10.0 起 ，seq_lengths 的 类 型 可 为 int32。 一 一 译 者 注 
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6.5 ”预测 编码 





我 们 已 经 学 习 了 如 何 利用 RNN 对 影评 中 的 情绪 进行 分 类 ， 以 及 如 何 识别 手写 单词 。 这 些 应 用 都 是 有 监督 的 ， 即 需要 一 个 带 标 注 信 息 的 数据 集 。 另 外 一 种 有 趣 的 
学 习 设 置 是 预测 编码 〈predictive coding) ， 目 的 是 通过 向 RNN 输 入 大 量 序列 ， 训 练 它 预 测序 列 的 下 一 帧 的 能 


以 文本 为 例 ， 预 测 一 个 句子 中 下 一 个 单词 的 似 然 被 称 为 语言 建 模 (language modelling) 。 为 什么 预测 句子 中 的 下 一 个 单词 是 有 用 的 ? 有 一 类 应 用 被 称 为 识别 语 
言 。 例 如 ， 假 设 希 望 构建 一 个 手写 文字 识别 器 ， 目 标 是 将 手写 文字 图 像 转换 为 键入 的 文字 。 虽 然 可 以 尝试 从 输入 图 像 恢复 所 有 的 单词 ， 但 如 果 能 够 预知 下 一 个 单词 
的 概率 分 布 ， 无 疑 能 够 缩小 候选 单词 的 考虑 范围 。 基 本 上 ， 这 便 是 盲目 的 形状 识别 与 阅读 的 区 别 。 





除了 提升 模型 对 涉及 自然 语言 的 任务 的 处 理性 能 ， 为 了 生成 文本 ， 也 可 以 依据 网 络 所 认为 的 下 一 个 单词 的 分 布 进行 抽样 。 训 练 结束 后 ， 可 将 一 个 种 子 单词 
(seed word) 送 入 RNN， 然 后 观察 它 所 预测 的 下 一 个 单词 。 之 后 ， 将 最 可 能 的 单词 送 回 RNN 作 为 接 下 来 的 输入 ， 以 观察 它 认为 接 下 来 应 是 什么 。 重 复 这 个 步骤 ， 便 
可 生成 与 训练 数据 看 上 去 非常 类 似 的 新 内 容 。 





(is) we walked down the street <eos> 





we walked down the street 


That day 


从 一 个 循环 语言 模型 进行 种 子 采 样 








这 里 的 有 趣 之 处 在 于 预测 编码 将 训练 网 络 对 任意 序列 的 所 有 重要 信息 进行 压缩 。 一 个 句子 中 的 下 一 个 单词 通常 与 前 一 个 单词 及 其 顺序 及 关系 有 关 。 因 此 ， 能 够 
精确 预测 自然 语言 中 下 一 个 字符 的 网 络 也 需要 捕捉 语法 和 语言 规则 。 


6.5.1 字符 级 语言 建 模 











下 面 利 用 RNN 构 建 一 个 预测 编码 语言 模型 。 我 们 用 稍 多 于 26 个 独 热 编码 字符 表示 字母 、 一 些 标点 符 写 和 空格 ， 而 不 将 词 向 量 作 为 输入 。 





对 于 单词 级 的 语言 建 模 和 字符 级 的 语言 建 模 ， 哪 个 方法 更 优 尚 不 清楚 。 字 符 级 的 建 模 方法 之 美 在 于 网 络 不 仅 能 学 会 如 何 构 词 ， 还 可 以 学 会 如 何 拼写 。 此 外 ， 采 
用 这 种 方法 时 ， 与 尺寸 为 300 的 词 同 量 或 独 热 编 码 的 蛙 词 相 比 ， 网 络 的 输入 维 数 更 低 。 此 外 ， 还 有 一 个 好 处 ， 即 不 必 再 去 考虑 那些 未 知 的 单词 ， 因 为 它们 是 由 网 络 
己 知 的 字母 构成 的 。 从 理论 上 讲 ， 这 甚至 允许 网 络 发 明 一 些 新 的 单词 。 








Andrew Karpathy 在 2015 年 将 RNN 应 用 于 字符 级 语言 建 模 ， 并 自动 生成 了 一 些 令 人 惊叹 的 莎士比亚 剧本 、Linux 内 核 和 驱动 代码 以 及 包括 正确 的 标记 语法 的 维基 百 
科 文 章 。 这 个 项 目的 源码 可 从 Github 获 取 https;//github.conykarpathy/char-rmmn。 下 面 从 机 器 学 习 文献 的 摘要 上 训练 一 个 类 似 的 模型 ， 看 看 能 否 生成 一 些 多 少 有 一 定 合理 
性 的 新 摘要 。 





6.5.2 ”ArXiv 摘要 API 


ArXiv.org 是 一 个 托管 了 来 自 计 算 机 科学 、 数 学 、 物 理学 和 生物 学 等 领域 的 许多 研究 论文 的 在 线 库 。 如 果 一 直 在 追 踊 机 器 学 习 相 关 研 究 ， 可 能 对 该 网 站 早 有 耳 
闻 。 笠 和 运 的 是 ， 这 个 平台 提供 了 一 个 基于 Web 的 可 用 于 检索 文献 的 API。 下 面 来 编写 一 个 依据 给 定 搜索 查询 ， 从 ArXiv 获 取 摘 要 的 类 。 
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import requests 
import os 
from bs4 import BeautifulSoup 


class ArxivAbstracts: 


def _init__(self, cache dir, categories, keywords, 


amount=None): 
pass 


def fetch_all(self, amount): 
pass 


def fetch _page(self, amount, offset): 
pass 


def fetch _count(self): 
pass 


def build_url(self, amount, offset): 
pass 














在 构造 方法 中 ， 首 先 检查 是 否 有 之 前 的 摘要 转 储 文件 可 用 。 如 果 有 ， 则 直接 使 用 ， 而 无 需 再 次 调用 ArXiv API。 你 可 以 想象 更 为 复杂 的 检查 已 有 文件 与 新 类 别 、 
新 关键 词 是 否 匹 配 的 逻辑 ， 但 就 目前 而 言 ， 执 行 新 的 查询 时 ， 将 旧 的 转 储 文件 删除 或 转移 已 经 足够 用 了 。 如 果 没 有 转 储 文件 可 用 ， 则 调用 _fetch al O 方法 ， 并 将 
它 所 生成 的 行 写 入 磁盘 。 





def init (self, cache dir, categories, keywords, 
amount=None): 
self.categories = categories 
self.keywords = keywords 
cache_dir = os.path.expanduser(cache_dir) 
ensure_directory(cache dir) 
filename = os.path.join(cache dir, ‘abstracts.txt') 
if not os.path.isfile(filename): 
with open(filename, 'w') as file_: 
for abstract in self. _fetch_all(amount): 
file_.write(abstract + '\n') 
with open(filename) as file: 
self.data = file_.readlines() 


由 于 所 感 兴趣 的 是 机 器 学 习 论文 ， 所 以 只 在 Machine Learning. Neural and Evolutionary Computing#ll Optimization and Control 三 个 类 别 内 进行 搜索 。 我 们 进一步 限制 只 
返回 那些 元 数据 中 包含 单词 neural、netwotk 或 deep 的 结果 ， 这 样 可 以 获取 到 约 7MB 的 文本 ， 这 样 的 数据 量 对 于 训练 一 个 简单 的 RNN 语 言 模型 已 经 足够 大 了 。 尽 管 使 
用 更 多 的 数据 通常 会 得 到 更 好 的 结果 ， 但 我 们 并 不 希望 在 看 到 结果 之 前 用 数 小 时 等 待 训练 结束 。 你 尽 可 以 使 用 更 多 的 搜索 查询 ， 并 用 更 多 的 数据 来 训练 模型 。 
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ENDPOINT = 'http://export.arxiv.org/api/query' 


def build _url(self, amount, offset): 


categories = ' OR '.join('cat:' + x for x in 
self.categories) 
keywords = ' OR '.join('all:' + x for x in self.keywords) 


url = type(self).ENDPOINT 
url += '?search_query=(({}) AND 
({}))'.format(categories, keywords) 
url += '&max_resuLts={ }&offset={}'.format(amount, offset) 
return url 


def fetch _count(self): 
url = self. _build_url(0, 0) 
response = requests.get(url) 
soup = BeautifulSoup(response.text, 'lxml') 
count = int(soup.find( 'opensearch:totalresults').string) 
print(count, ‘papers found’) 
return count 


ftch al O 方法 基本 上 完成 的 是 分 页 功能 。 每 次 查询 时 ， 这 个 API 仅 返回 一 定数 量 的 摘要 ， 我 们 可 指定 一 个 侦 移 量 ， 用 于 获取 比如 第 2 页 、 第 3 页 的 结果 。 可 以 





看 到 ， 我 们 能 为 下 一 个 函数 _fetch page O 传 入 一 个 指定 了 页 面 尺 寸 的 参数 。 理 论 上 ， 可 以 将 页 面 尺 寸 设 为 一 个 很 大 的 数 ， 并 尝试 一 次 性 得 到 全 部 结果 。 然 而 ， 实 











际 上 这 种 做 法 会 严重 影响 查询 的 效率 。 页 面 的 获取 容错 性 更 强 ， 而 且 更 重要 的 是 ， 不 会 为 ArXiv API 增 加 过 大 的 负载 。 
PAGE_SIZE = 100 


def fetch all(self, amount): 
page_size = type(self).PAGE SIZE 
count = self. fetch count() 
if amount: 
count = min(count, amount) 
for offset in range(0, count, page size): 
print('Fetch papers {}/{}'.format(offset + 
page_size, count)) 
yield from self. fetch page(page size, count) 


这 里 完成 了 实际 的 抓 取 ， 结 果 为 XMIL 格 式 ， 利 用 流行 而 强大 的 BeautifulSoup 库 来 提取 摘要 。 如 果 尚 未 安 六 该 库 ， 可 通过 执行 命 





令 sudo-H pip3 install beautifalsoup4 来 


安装 它 。BeautifylSoup 会 为 我 们 解析 XML 结 果 ， 这 样 便 可 裔 历 那 些 感 兴 趣 的 标签 。 首 先 查 看 对 应 于 文章 的 <entry> 标 签 ， 并 从 其 内 部 读 取 包 含 摘 要 文本 的 <sumnmary> 标 


Fy 


def fetch _page(self, amount, offset): 

url = self. _build_url(amount, offset) 

response = requests.get(urlL) 

soup = BeautifulSoup(response. text) 

for entry in soup.findALL('entry'): 
text = entry.find('summary').text 
text = text.strip().replace('\n', ' ') 
yield text 


6.5.3 ”数据 预 处 理 


数据 预 处 理 的 相关 代码 如 下 : 
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import random 
import numpy as np 


class Preprocessing: 


VOCABULARY = \ 
" $%'()+,-./0123456789: ;=? 
ABCDEFGHIJKLMNOPQRSTUVWXYZ" \ 
"\\4_abcdefghijklmnopqrstuvwxyz{ | }" 


def init (self, texts, Length, batch_size): 
self.texts = texts 
self.length = Length 
self.batch_size = batch_size 
self.lookup = {x: i for i, x in 
enumerate(self.VOCABULARY ) } 


def call (self, texts): 
batch = np.zeros((len(texts), self.length, 


len(self .VOCABULARY) )) 
for index, text in enumerate(texts): 
text = [x for x in text if x in self. lookup] 
assert 2 <= len(text) <= self.length 
for offset, character in enumerate(text): 
code = self.lookup[character ] 
batch[index, offset, code] = 1 
return batch 
def _iter_(self): 
windows = [ ] 
for text in self.texts: 
for i in range(0, len(text) - self.length + 1, 
self.length // 2): 
windows. append(text[i: i + self.length]) 
assert all(len(x) == Len(windows[0]) for x in 
windows) 
while True: 
random. shuffle(windows) 
for i in range(0, len(windows), self.batch_size): 
batch = windows[i: i + self.batch_size] 
yield self(batch) 


6.5.4 ”预测 编码 模型 


现在 已 介绍 了 整个 流程 : 定义 了 任务 ,编写 了 一 个 解析 器 用 于 获取 数据 集 ， 下 面 利用 TensorFlow 实 现 神经 网 络 模型 。 由 于 对 于 预测 编码 而 言 ， 需 要 尝试 预测 输 
入 序列 中 的 下 一 个 字符 ， 所 以 模型 只 有 一 个 输入 ， 即 构造 方法 的 sequence 参 数 。 


此 外 ， 构 造 方法 接收 一 个 参数 对 象 ， 用 于 修改 重要 的 选项 ， 并 使 实验 可 复 现 。 第 3 个 参数 mitiaFNone 是 循环 连接 层 的 初始 内 部 活性 值 。 虽 然 希 望 TensorFlow 将 隐 
状态 初始 化 为 零 张 量 ， 但 今后 在 需要 从 所 学 习 到 的 语言 模型 进行 采样 时 定义 它 会 更 加 方便 。 
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import tensorflow as tf 

from tensorflow.models.rnn import rnn 

from tensorflow.models.rnn import rnn_cell 
from utility import lazy_property 


class PredictiveCodingModeL: 


def init (self, params, sequence, initial=None): 
self.params = params 
self.sequence = sequence 
self.initial = initial 
self .prediction 
self.state 
self.cost 
self.error 
self. logprob 
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self.optimize 


@lazy property 
def data(self): 
pass 


@lazy_property 
def target(self): 
pass 


@lazy property 
def mask(self): 
pass 


@lazy_ property 
def length(self): 
pass 


@lazy property 
def prediction(self): 
pass 


@lazy_property 
def state(self): 
pass 


@lazy property 
def forward(self): 
pass 


@lazy_ property 
def cost(self): 
pass 


@lazy_property 
def error(self): 
pass 


@lazy_ property 
def logprob(self): 
pass 


@lazy_ property 
def optimize(self): 
pass 


def average(self, data): 
pass 


在 上 面 的 示例 代码 中 ， 可 以 看 到 我 们 的 模型 所 要 实现 的 大 致 功能 。 如 果 初 看 上 去 觉得 难以 理解 ， 请 不 必 担 心 ， 与 上 一 半 模 型 相 比 ， 我 们 只 是 希望 更 多 地 突出 这 
个 模型 的 某 些 价值 。 





从 数据 处 理 开 始 。 前 面 提 到 过 ， 这 个 模型 只 接收 一 个 序列 块 作为 输入 。 首 先 ， 我 们 利用 它 构 造 输入 数据 和 目标 序列 ， 这 是 引入 时 域 差 的 地 方 ， 因 为 在 时 间 步 t， 
模型 应 有 st 作为 输入 ，st+1 作 为 输出 。 获 取 数 据 或 目标 的 一 种 简便 方法 是 对 所 提供 的 序列 进行 切片 处 理 ， 并 将 第 一 帧 或 最 后 一 帧 分 别 切除 。 


切片 运算 是 通过 tfslice〈() 实现 的 ， 该 图 数 的 参数 包括 要 切片 的 序列 、 一 个 包含 各 维 起 始 索 引 的 元 组 以 及 一 个 包含 各 维 大 小 的 元 组 。sizes-1 意 味 着 保持 那个 维度 
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上 从 起 始 索引 到 终止 索引 的 所 有 元 际 不 变 。 由 于 希望 对 帧 数据 进行 切片 ， 所 以 只 需 关 心 第 2 维 。 


@lazy property 
def data(self): 
max_length = int(self.sequence.get_shape()[1]) 
return tf.slice(self.sequence, (0, 0, 0), (-1, 
max_length - 1, -1)) 


@lazy property 
def target(self): 
return tf.slice(self.sequence, (0, 1, 0), (-1, -1, -1)) 


@lazy property 
def mask(self): 

return tf.reduce max(tf.abs(self.target), 
reduction_indices=2) 


@lazy property 
def length(self): 
return tf.reduce_sum(self.mask, reduction_indices=1) 





我 们 还 为 目标 序列 定义 了 两 个 前 面 已 经 讨论 过 的 属性 : mask 是 一 个 尺寸 为 batch sizexmax length 的 张 量 ， 其 分 量 非 0 即 1， 有 具体 取 哪 个 值 取 决 于 相关 帧 是 否 被 使 


用 。 为 得 到 每 个 序列 的 长 度 ， 属 性 length 沿 时 间 轴 对 mask 求 和 。 


请 注意 ，mask 和 length 属 性 对 于 数据 序列 也 是 合法 的 ， 因 为 从 概念 上 讲 ， 它 们 与 目标 序列 的 长 度 相同 。 然 而 ， 我 们 并 不 在 数据 序列 上 计算 这 两 个 属性 ， 因 为 它 仍 
然 包含 着 并 不 需要 的 最 后 一 帧 ， 而 对 它 是 没有 下 一 个 字母 可 预测 的 。 将 数据 张 量 的 最 后 一 帧 切除 ， 但 除了 主要 包 合 填充 的 帧 外 ， 它 并 不 包含 大 多 数 序列 实际 上 的 最 








后 一 帧 。 这 也 正 古 下 面 用 mask 对 代价 函数 进行 掩 膜 处 理 的 原因 。 








下 面 定 义 由 一 个 循环 神经 网 络 和 一 个 共享 的 softmax 层 构成 的 实际 网 络 ， 具 体 方法 与 上 一 市 序列 标注 任务 中 使 用 的 结构 类 似 。 这 里 不 再 展示 用 于 共享 的 softmax 层 


的 代码 《可 从 上 一 市 找到 相关 代码 〉。 


@lazy_property 

def prediction(self): 
prediction, _ = self.forward 
return prediction 


@lazy property 

def state(self): 
_, state = self.forward 
return state 


@lazy_ property 
def forward(self): 
cell = self.params.rnn_cell(self.params.rnn_hidden) 
cell = rnn_cell.MuLltiRNNCell([cell] * 
self.params.rnn_lLayers) 
hidden, state = rnn.dynamic_rnn( 
inputs=self.data, 
cell=cell, 
dtype=tf.float32, 
initial_state=self.initial, 
sequence_lLength=self. Length) 
vocabulary_size = int(self.target.get_shape()[2]) 
prediction = self. _shared_softmax(hidden, 
vocabuLary_size) 
return prediction, state 
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上 述 神 经 网 络 代 码 中 新 增 的 部 分 是 我 们 希望 同时 获得 的 预测 和 最 后 的 循环 活性 值 。 在 此 之 前 ， 仪 返回 预测 值 ， 但 最 后 的 活性 值 可 使 我 们 更 有 效 地 生成 一 些 序 
列 。 由 于 仅 希 望 为 循环 神经 网 络 构建 一 次 数据 流 图 ， 因 此 有 一 个 属性 fbrward 用 于 返回 由 那 两 个 张 量 构成 的 元 组 ， 而 predicton 和 state 的 目的 仅仅 是 便于 外 部 访问 。 











模型 的 下 一 部 分 是 代价 函数 和 评价 函数 。 在 每 个 时 间 步 ， 模 型 都 会 从 词汇 表 中 预测 下 一 个 字母 。 这 是 一 个 分 类 问题 ， 我 们 相应 地 采用 交叉 炳 代价 函数 ， 也 可 以 
很 容易 地 计算 字符 预测 错误 率 。 


logprob 属 性 是 新 增 的 ， 它 刻画 了 模型 在 对 数 空间 为 正确 的 下 一 个 字母 所 分 配 的 概率 。 基 本 上 ， 可 以 认为 这 是 变换 到 对 数 空间 并 取 均 值 后 的 负 交 叉 和 。 将 结果 变 


换 回 线性 空间 ， 便 会 得 到 所 谓 的 混淆 度 〈perplexity) ， 这 是 一 种 用 于 评价 语言 模型 性 能 的 常见 度量 。 


] n 
之 logp(y,) 
i = 
TERY RE A KE SLA ， 直 观 地 表示 了 模型 在 每 个 时 间 步 必须 猜测 的 选项 数目 。 











对 于 完美 的 模型 而 言 ， 混 消 度 为 1]， 而 始终 对 每 个 类 别 都 输出 相同 概率 的 模型 的 混淆 度 为 n。 只 要 模型 为 下 一 个 字母 分 配 一 个 零 概率 ， 混 消 度 甚至 会 变 为 无 穷 
大 。 为 防止 这 种 极端 情况 出 现 ， 可 将 预测 概率 箱 位 在 一 个 很 小 的 正 数 和 1 之 间 。 


@lazy property 
def cost(self): 
prediction = tf.clip_by_value(self.prediction, 1e-10, 
1.0) 
cost = self.target * tf.log(prediction) 
cost = -tf.reduce _sum(cost, reduction _indices=2) 
return self. _average(cost) 


@lazy_ property 
def error(self): 
error = tf.not_equal( 
tf.argmax(self.prediction, 2), 
tf.argmax(self.target, 2)) 
error = tf.cast(error, tf.float32) 
return self. _average(error) 


@lazy property 
def logprob(self): 
Logprob = tf.mul(self.prediction, self.target) 
Logprob = tf.reduce_max(logprob, reduction_indices=2) 
logprob = tf.log(tf.clip_by_value(logprob, ie-10, 
1.0)) / tf. log(2.0) 
return self. _average(Llogprob) 


def average(self, data): 
data *= self.mask 
length = tf.reduce_sum(self.length, 1) 
data = tf.reduce_sum(data, reduction _indices=1) / length 
data = tf.reduce_mean(data) 
return data 


上 述 三 个 属性 都 会 在 所 有 序列 的 各 帧 上 取 平 均 。 对 于 固定 长 度 序列 ， 结 果 将 为 一 个 tfreduce_mean O ， 但 在 处 理 变 长 序列 时 ， 必 须 格外 小 心 。 首 先 ， 通 过 与 拓 
膜 相 乘 ， 屏 蔽 掉 填 充 的 帧 。 然 后 ， 沿 着 帧 尺寸 进行 聚合 。 由 于 上 述 这 三 个 函数 都 与 目标 值 做 了 乘法 ， 每 帧 只 有 一 个 元 素 集 ， 我 们 利用 tfreduce_sum O AVES WOR 


合 为 一 个 标量 。 





接 下 来 ， 和 希望 利用 序列 的 实际 长 度 对 每 个 序列 中 的 各 帧 取 乎 均 。 为 了 避免 在 空 序列 时 除数 为 0， 我 们 使 用 每 个 序列 长 度 的 最 大 值 和 1。 最 后 ， 利 用 
tfreduce_mean © 对 批 数据 中 的 样本 取 平 均 。 








下 面 直接 开始 训练 模型 。 请 注意 ， 我 们 并 未 定义 optimize 运 算 ， 它 始终 与 之 前 本 章 在 序列 分 类 或 序列 标签 任务 中 所 使 用 的 运算 一 致 。 


6.5.5 训练 模型 
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在 对 语言 模型 采样 之 前 ， 必 须 将 已 经 构建 好 的 模块 进行 整合 ， 包 括 数据 集 、 预 处 理 步 又 和 网 络 模型 。 下 面 编写 一 个 对 这 些 步 又 进行 整合 的 类 ， 将 新 引入 的 混 消 
度 度量 打印 出 来 ， 并 周期 性 地 将 训练 进展 保存 下 来 。 这 个 检查 点 不 但 对 于 以 后 继续 训练 非常 有 用 ， 而 且 还 便于 加 载 模型 以 用 于 采样 〈 稍 后 将 进行 ) 。 











import os 


class Training: 
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@overwrite graph 
def init (self, params): 
self.params = params 
self.texts = ArxivAbstracts('/home/user/dataset/ 
arxiv' )() 
self.prep = Preprocessing( 
self.texts, self.params.max_Length, 
self.params.batch_ size) 
self.sequence = tf.placeholder( 
tf .float32, 
[None, self.params.max_Length, 
len(self.prep. VOCABULARY ) ] ) 
self.model = PredictiveCodingModel(self.params, 
self.sequence) 
self._init_or_load_session() 


def _call_ (self): 

print('Start training') 

self.logprobs = [] 

batches = iter(self.prep) 

for epoch in range(self.epoch, self.params.epochs + 

f); 
self.epoch = epoch 
for _ in range(self.params.epoch_size): 
self._optimization(next(batches)) 

self._evaluation() 

return np.array(self.logprobs) 


def optimization(self, batch): 
logprob, _ = self.sess.run( 
(self.model.logprob, self.model.optimize), 
{self.sequence: batch}) 
if np.isnan(Llogprob): 
raise Exception('training diverged’ ) 
self. logprobs.append( logprob) 


def evaluation(self): 
self.saver.save(self.sess, os.path. join( 
self.params.checkpoint_dir, '‘model'), self.epoch) 
self.saver.save(self.sess, os.path. join( 
self.params.checkpoint_dir, 'model'), self.epoch) 
perplexity = 2 ** -(sum(self.logprobs[ - 
self.params.epoch_size:]) / 
self.params.epoch_size) 
print('Epoch {:2d} perplexity {: 
5.if}'.format(self.epoch, perplexity)) 


def init_or_load_session(self): 
self.sess = tf.Session() 
self.saver = tf.train.Saver() 
checkpoint = 


ww ai bbt.com TAAWOAA 





tf.train.get_checkpoint_state(self.params.checkpoint_dir) 
if checkpoint and checkpoint.model_checkpoint_path: 
path = checkpoint.model_checkpoint_path 
print('Load checkpoint', path) 
self.saver.restore(self.sess, path) 
self.epoch = int(re.search(r'-(\d+)$', 
path) .group(1)) + 1 
else: 
ensure_directory(self.params.checkpoint_dir) 
print('Randomly initialize variables’ ) 
self.sess.run(tf.initialize all_variables()) 
self.epoch = 1 


构造 方法 、 cal (©) ~ _ optimization © 和 evaluation ©) 都 比较 容易 理解 。 我 们 加 载 数据 集 ， 为 数据 流 图 定义 输入 ， 在 经 过 预 处 理 的 数据 集 上 训练 模型 ， 并 


退 踪 对 数 几 率 ， 在 相 邻 两 次 训练 epoch 之 间 的 评价 时 间 上 使 用 它们 计算 并 打印 混 消 度 。 


在 _init or ljoad_session〈) 中 ， 引 入 了 一 个 tttrain.Saver O ， 用 于 将 数据 流 图 中 所 有 人 芋 Variabe《〈) 的 当前 值 保 存 到 检查 点 文件 中 。 实 际 的 点 检查 Ccheckpointing) 
是 在 _evalution〈) 内 完成 的 ， 在 这 里 我 们 创建 这 个 类 并 寻找 已 有 的 检查 点 文件 以 便 加 载 。 共 train.get_checkpoint state O 会 从 检查 点 文件 所 在 目录 中 查找 TensorFlow 的 
元 数据 文件 。 在 本 书 撰写 之 时 ， 它 只 包含 最 新 生成 的 检查 点 文件 。 


检查 点 文件 是 通过 一 个 可 指定 的 数字 《在 本 例 中 为 epoch 数 ) 预先 准备 。 在 加 载 检查 点 文件 时 ， 利 用 Python 的 正则 表达 式 包 re 提 取 epoch 数 。 点 检查 的 逻辑 实现 
后 ， 便 可 开始 训练 。 下 面 是 具体 的 配置 : 


def get_params(): 
checkpoint_dir = '/home/user/model/arxiv-predictive- 
coding ' 
max_length = 50 
sampling_temperature = 0.7 
rnn_cell = GRUCeLL 
rnn_hidden = 200 
rnn_layers = 2 
learning _rate = 0.002 
optimizer = tf.train.AdamOptimizer 
gradient_clipping = 5 
batch_size = 100 
epochs = 20 
epoch_size = 200 
return AttrDict(**Llocals()) 


为 了 运行 这 段 代码 ， 可 调用 Training (gæt params O ) O 。 在 笔者 的 笔记 本 电脑 上 ， 完 成 20 个 epoch 需 要 大 约 1 小 时 的 时 间 。 在 训练 过 程 中 ， 模 型 一 共 看 到 了 20 
epochs*200 batches* 100 examples*50 characters=20M 个 字母 。 


ArXiv 预 测 编码 混 消 度 
TEVA FE 


10' 


0 
es 0 500 1000 1500 2000 2500 3000 3500 4000 


从 上 图 可 以 看 出 ， 模 型 在 混 消 度 约 为 1.3/ 字 母 时 收敛 ， 这 意味 着 利用 这 个 模型 时 ， 每 个 字母 只 需 1.$ 位 ， 从 而 可 实现 文本 的 压缩 。 





如 果 使 用 单词 级 的 语言 模型 ， 则 需要 依据 单词 数 而 APS A et cond fr AY H a 以 将 它 乘 以 每 个 单词 中 的 平均 字符 数 。 





6.5.6 ”生成 相似 序列 


完成 上 述 所 有 工作 后 ， 便 可 利用 训练 好 的 模型 生成 新 的 序列 。 我 们 将 编写 一 个 功能 与 Training 类 相似 的 较 小 的 类 ， 实 现 从 磁盘 加 载 最 新 的 模型 检查 点 ， 并 定义 一 


些 占 位 符 ， 以 将 数据 输入 数据 流 图 。 当 然 ， 这 次 并 不 训练 模型 ， 只 是 用 它 生 成 新 数据 。 


class Sampling: 


@overwrite_graph 

def _init_(self, params): 
pass 

def call (self, seed, length): 
pass 


def sample(self, dist): 
pass 








在 构造 方法 中 ， 我 们 创建 了 一 个 预 处 理 类 的 实例 ， 后 面 利用 它 将 当前 生成 的 序列 转化 为 一 个 NumPy 向 量 ， 以 输入 数据 流 图 。 这 时 的 占 位 符 sequence 对 每 批 数 据 
只 预 留 了 一 个 序列 的 空间 ， 因 为 不 希望 每 次 生成 多 个 序列 。 

这 里 序列 的 长 度 被 设 为 2， 下 面 做 一 解释 。 前 面 介绍 过 ， 我 们 的 模型 将 除 最 后 的 字符 外 的 所 有 字符 作为 输入 ， 而 将 除 首 字符 外 的 所 有 字符 作为 目标 。 我 们 将 当 
前 文本 最 后 的 字符 和 作为 序列 的 任意 第 二 个 字符 输入 到 模型 中 ， 网 络 将 为 第 一 个 字符 预测 一 个 结果 ， 将 第 二 个 字符 用 作 目 标 值 ， 但 由 于 并 不 是 训练 模型 ， 因 此 它 将 
被 忽略 。 











对 只 将 当前 文本 最 后 的 字符 传 入 网 络 感到 疑惑 。 这 里 采用 的 技巧 是 准备 获取 循环 神经 网 络 最 后 的 活性 值 ， 并 用 它 对 网 络 下 一 次 运行 时 的 状态 进行 初始 


你 可 能 会 
需 


化 。 为 此 ， 雷 要 利用 模型 的 初始 状态 参数 。 对 于 使 用 过 的 GRUCell， 该 状态 是 一 个 尺寸 为 mn_layers*rmn _units 的 问 量 。 


@overwrite_graph 
def init (self, params, Length): 
self.params = params 
self.prep = Preprocessing([], 2, self.params.batch_size) 
self.sequence = tf.placeholder( 
tf.float32, [1, 2, len(self.prep.VOCABULARY) ] ) 
self.state = tf.placeholder( 
tf.float32, [1, self.params.rnn_hidden * 
self.params.rnn_Layers]) 
self.model = PredictiveCodingModel( 
self.params, self.sequence, self.state) 
self.sess = tf.Session() 


checkpoint = 
tf.train.get_checkpoint_state(self.params.checkpoint_dir) 
if checkpoint and checkpoint.model_checkpoint_path: 
tf.train.Saver().restore( 
self.sess, checkpoint.model_checkpoint_path) 


else: 
print('Sampling from untrained model. ') 


print('Sampling temperature’, 
self.params.sampling temperature) 
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_ cal 


本 转换 为 填充 后 的 NumPy 块 ， 然 后 将 它们 送 入 网 络 。 由 于 在 批 数据 中 只 有 一 个 序列 和 一 个 输出 帧 ， 因 此 只 关心 索引 [0，0] 处 的 预测 结果 。 之 后 ， 利 用 后 面 将 要 介绍 


的 sample () 函数 对 Softmax 和 输出 进行 采样 。 
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def call (self, seed, length=100): 
text = seed 
State = np.zeros((1, self.params.rnn_hidden * 
self.params.rnn_lLayers)) 
for _ in range( length): 
feed = {self.state: state} 
feed[self.sequence] = self.prep([text[-1] + '?']) 
prediction, state = self.sess.run( 
[self.model.prediction, self.model.state], feed) 
text += self. sample(prediction[0, 0]) 
return text 


那么 如 何 对 网 络 输出 进行 采样 ? 前文 曾 提 到 过 ， 可 选取 序列 最 优 的 预测 ， 并 将 其 作为 下 一 帧 传 入 网 络 来 生成 序列 。 实 际 上 ， 并 非 只 选择 最 可 能 的 下 一 帧 ， 而 是 
也 从 RNN 输 出 的 概率 分 布 中 随机 抽样 。 按 照 这 种 方式 ， 那 些 具 有 高 输出 概率 的 单词 更 可 能 被 选中 ， 但 输出 概率 低 的 单词 也 是 有 可 能 被 选中 的 。 这 样 就 可 得 到 更 多 动 
态 生成 的 序列 。 否 则 ， 可 能 是 一 次 又 一 次 地 生成 相同 的 平均 句子 。 





要 手工 控制 这 个 生成 过 程 的 有 效 性 有 一 种 简单 的 机 制 。 例 如 ， 如 果 总 是 随机 选择 下 一 个 单词 〈 并 将 网 络 输出 完全 忽略 ) ， 将 得 到 非常 新 且 独 一 无 二 的 句子 ， 但 
它们 可 能 会 没有 任何 意义 。 如 果 总 是 选择 将 网 络 最 可 能 的 输出 作为 下 一 个 单词 ， 则 将 得 到 大 量 虽 常见 但 无 意义 的 单词 ， 如 the、a 等 。 











对 这 种 行为 进行 控制 的 方式 是 引入 一 个 温度 参数 T。 利 用 该 参数 使 softmax 层 的 输出 分 布 预 测 更 相似 或 更 为 不 同 。 这 样 会 分 别 导 致 生成 更 有 趣 但 有 随机 性 的 序 
列 ， 以 及 更 多 合理 但 乏味 的 序列 。 其 工作 方式 是 在 线性 空间 对 输出 进行 缩放 ， 然 后 将 它们 变换 至 指数 空间 并 再 次 归 一 化 : 


p(X) = ee 
二 


由 于 网 络 已 经 输出 了 一 个 softmax 分 布 ， 则 可 通过 运用 自然 对 数 将 其 撤销 。 我 们 不 必 将 归 一 化 操作 撤销 ， 因 为 会 再 次 将 结果 归 一 化 。 之 后 ， 将 每 个 值 除 以 所 选择 
的 温度 值 ， 并 重新 应 用 softmax 函 数 。 


def sample(self, dist): 
dist = np.log(dist) / self.params.sampling temperature 
dist = np.exp(dist) / np.exp(dist).sum() 
choice = np.random.choice(len(dist), p=dist) 
choice = self.prep.VOCABULARY[ choice ] 
return choice 





下 面 通过 调用 Sampling (get params © ) ('We', 500) ) 运行 上 述 代码 ， 使 网 络 生成 一 段 新 的 摘要 。 虽 然 你 一 定 能 够 看 出 这 段 文 字 绝 非 出 自 人 手 ， 但 网 络 从 样 
本 中 学 习 到 的 结果 还 是 让 人 感到 吃惊 。 


We study nonconvex encoder in the networks (RFNs) hasding 
configurations with 

non-convex Large-layers of images, each directions lLiteratic 
for layers. More 

recent results competitive strategy, in which data at 
training and more 

difficult to parallelize. Recent Newutic systems, the 
desirmally parametrically 

in the DNNs improves optimization technique, we extend their 
important and 

subset of theidesteding and dast and scale in recent 
advances in sparse 

recovery to complicated patterns of the $L_p$ 


我 们 并 未 告知 RNN 什 么 是 空间 ， 但 它 却 捕捉 到 了 数据 内 部 的 统计 依赖 性 ， 在 所 生成 的 文本 中 相应 地 放置 了 空格 。 即 使 在 一 些 网 络 自 己 生成 的 并 不 存在 的 单词 之 
间 ， 空 格 的 安排 看 上 去 也 非常 合理 。 此 外 ， 那 些 单词 中 的 元 音 和 辅音 的 搭配 都 很 合理 ， 这 是 从 样 例文 本 中 学 习 到 的 男 一 种 抽象 特征 。 
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6.6 ”本 章 小 结 


RNN 是 一 种 强大 的 序列 模型 ， 在 许多 类 型 的 问题 中 都 得 到 了 广泛 应 用 ， 并 取得 了 众多 最 领先 的 结果 。 我 们 学 习 了 如 何 优化 
RNN， 优 化 时 会 引 友 哪些 问题 ， 以 及 像 LSTM 和 和 GRU 这样 的 染 构 是 如 何 帮助 元 服 这 些 问题 的 。 利 用 这 些 构 件 ， 我 们 解决 了 目 然 语 
言 处 理 领 域 和 相关 问题 域 中 的 奢 干 问题 ， 包 括 影评 的 情绪 分 类 、 识 列 手写 单词 和 生成 假 的 科学 论文 摘要 。 
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第 7 章 ” 产品 环境 中 模型 的 部 普 





人 至此， 对 于 如 何 利用 TensorFlow 构 建 和 训练 各 种 模型 一 一 从 基本 的 机 器 学 习 模 型 到 复杂 的 深度 学 习 网 络 ， 我 们 已 有 了 基本 了 
解 。 本 章 将 重点 介绍 如 何 将 训练 好 的 模型 投入 于 产品 ， 以 使 其 能 够 为 其 他 应 用 所 用 。 





我 们 的 目标 是 创建 一 个 简单 的 web App， 使 用 户 能 够 上 传 一 幅 图 像 ， 并 对 其 运行 Inception 模 型 ， 实 现 图 像 的 目 动 分 类 。 
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7.1 搭建 TensorFlow 服 务 开 发 环境 


7.1.1 Docker 镑 像 





TensorFlow 服 务 是 用 于 构建 允许 用 户 在 产品 中 使 用 我 们 提供 的 模型 的 服务 器 的 工具 。 在 开发 过 程 中 ， 使 用 该 工具 的 方法 有 两 种 : 手工 安装 所 有 的 依赖 项 和 工 
有 具 ， 并 从 源码 开始 构建 ， 或 利用 Docker 镜 像 。 这 里 准备 使 用 后 者 ， 因 为 它 更 容易 、 更 干净 ， 同 时 允许 在 其 他 不 同 于 Linux 的 环境 中 进行 开 友 。 

















如 果 不 了 解 Docker 镜 像 ， 不 妨 将 其 想象 为 一 个 轻 量 级 的 虚拟 机 镜像 ， 但 它 在 运行 时 不 需要 以 在 其 中 运行 完整 的 操作 系统 为 代价 。 如 果 尚 未 安装 Docker， 请 在 
开发 机 中 安装 它 ， 具 体 的 安装 步骤 可 参考 https;/docs.docker.com/engine/installation/。 





为 了 使 用 Docker 镜 像 ， 还 可 利用 笔者 提供 的 文件 https//github.conmytensorflow/serving/blob/master/tensorflow serving/tools/docker/Dockerfile.devel ， 它 是 一 个 用 于 在 本 
地 创建 镜像 的 配置 文件 。 要 使 用 该 文件 ， 可 使 用 下 列 命令 : 








docker build --pull -t $USER/tensorflow-serving-devel 
https://raw.githubusercontent.com/tensorflow/serving/master/ 
tensorflow_serving/tools/docker/Dockerfile.devel 


请 注意 ， 执 行 上 述 命令 后 ， 下 载 所 有 的 依赖 项 可 能 需要 一 段 较 长 的 时 间 。 





上 述 命令 执行 完毕 后 ， 为 了 使 用 该 镜像 运行 容器 ， 可 输入 下 列 命 令 


docker run -v SHOME:/mnt/home -p 9999:9999 -it SUSER/ 
tensorflow-serving-devel 





该 命令 执行 后 会 将 你 的 hbome 目 录 加 载 到 容器 的 /mnt/home 路 径 中 ， 并 允许 在 其 中 的 一 个 终端 下 工作 。 这 是 非常 有 用 的 ， 因 为 你 可 使 用 自己 仿 好 的 IDE 或 编辑 器 
直接 编辑 代码 ， 同 时 在 运行 构建 工具 时 仅 使 用 该 容器 。 它 还 会 开放 端口 9999， 使 你 可 从 自己 的 主机 中 访问 它 ， 并 供 以 后 将 要 构建 的 服务 器 使 用 。 





键入 exit 命 令 可 退出 该 容器 终端 ， 使 其 停止 运行 ， 也 可 利用 上 述 命令 在 需要 的 时 候 局 动 它 。 


7.1.2 ”Bazel 工 作 区 


由 于 TensorFlow 服 务 程序 是 用 C++ 编写 的 ， 因 此 在 构建 时 应 使 用 Googke 的 Baze 构 建 工具 。 我 们 将 从 最 近 创 建 的 容器 内 部 运行 Bazel。 


Baze] 在 代码 级 管理 着 第 三 方 依赖 项 ， 而 且 只 要 它们 也 需要 用 Baze 构 建 ，Baze] 便 会 自动 下 载 和 构建 它们 。 为 了 定义 我 们 的 项 目 将 支持 哪些 第 三 方 依赖 项 ， 必 
须 在 项 目 库 的 根 目录 下 定义 一 个 WORKSPACE 文 件 。 


我 们 需要 的 依赖 项 是 TensorFlow 服 务 库 。 在 我 们 的 例子 中 ，TensorFlow 模 型 库 包 含 了 Inception 模 型 的 代码 。 











不 笠 的 是 ， 在 撰写 本 书 时 ，TensorFlow 服 务 尚 不 支持 作为 Git 库 通过 Baze] 直 接 引 用 ， 因 此 必须 在 项 目 中 将 它 作为 一 个 Git 的 子 模块 包含 进去 : 


# 在 本 地 机 器 上 

mkdir ~/serving example 

cd ~/serving_example 

git init 

git submodule add https://github.com/tensorflow/serving.git 
tf_serving 

git submodule update --init --recursive 





下 面 利 用 WORKSPACE 文 件 中 的 Jocal repository 规 则 将 第 三 方 依赖 项 定义 为 在 本 地 存储 的 文件 。 此 外 ， 还 需 利 用 从 项 目 中 导入 的 芋 workspace 规 则 对 
TensorFlow 的 依赖 项 初始 化 : 
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# Bazel WORKSPACE 文件 
workspace(name = "serving") 


local_repository( 


name = "tf serving", 
path = _ workspace dir__ + "/tf_serving", 
) 
local_repository( 
name = "org _tensorflow", 
path = _workspace dir__ + "/tf_serving/tensorflow", 


) 


load('//tf_serving/tensorflow/tensorflow:workspace.bzl', 
'tf_workspace' ) 
tf_workspace("tf_serving/tensorflow/", "@org_tensorflow" ) 


bind( 

name = "Libssl", 

actual = "@boringssl git//:ssl", 
) 
bind( 

name = "zlib", 

actual = "@zlib_archive//:zlib", 
) 


# 仅 当 导出 Inception 模 型 时 需要 
local_repository( 
name = "inception model", 
path = _workspace dir + "/tf_serving/tf_models/ 


inception", 


) 


fa, m MA AANA TensorFlow 运行 ./configure: 


# 在 Docker 容 器 中 
cd /mnt/home/serving_example/tf_serving/tensorflow 
. /configure 
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7.2 ”导出 训练 好 的 模型 


一 旦 模型 训练 完毕 并 准备 进行 评估 ， 便 需要 将 数据 流 图 及 其 变量 值 导出 ， 以 使 其 可 为 产品 所 用 。 





模型 的 数据 流 图 应 当 与 其 训练 版 本 有 所 区 分 ， 因 为 它 必 须 从 占 位 符 接 收 输入 ， 并 对 其 进行 单 步 推 产 以 计算 输出 。 对 于 Inception 模 型 这 个 例子 ， 以 及 对 于 任意 
一 般 图 像 识别 模型 ， 我 们 希望 输入 是 一 个 表示 了 JPEG 编 码 的 图 像 字符 串 ， 这 样 就 可 轻易 地 将 它 传送 到 消费 App 中 。 这 与 从 TFRecord 文 件 读 取 训 练 输入 颇 为 不 同 。 


定义 输入 的 一 般 形 式 如 下 : 
def convert_external_inputs(external_x): 
E 将 外 部 输入 变换 为 推断 所 需 的 输入 格式 


def inference(x): 
# 从 原始 模型 中 …… 


external_x = tf.placeholder(tf.string) 
x = convert_external_inputs(external_x) 
y = unference(x) 


在 上 述 代 码 中 ， 为 输入 定义 了 占 位 符 ， 并 调用 了 一 个 函数 将 用 占 位 符 表示 的 外 部 输入 转换 为 原始 推 斯 模型 所 需 的 输入 格式 。 例 如 ， 我 们 需要 将 卫 EG 字 符 串 
转换 为 Inception 模 型 所 需 的 图 像 格式 。 最 后 ， 调 用 原始 模型 推断 方法 ， 依 据 转 换 后 的 输入 得 到 推断 结果 。 


例如 ， 对 于 Inception 模 型 ， 应 当 有 下 列 方法 : 


import tensorflow as tf 
from tensorflow serving.session bundle import exporter 
from inception import inception model 


def convert external inputs(external x): 

# 将 外 部 输入 变换 为 推断 所 需 的 输入 格式 

# 将 图 像 字 符 串 转换 为 一 个 各 分 量 位 于 [0, 1] 内 的 像素 张 量 

image = 
tf.image.convert_image_dtype(tf.image.decode_jpeg(external_x, 
channels=3), tf.float32) 

#MARR THT, 使 其 符合 模型 期 望 的 宽度 和 和 高 度 

images = tf.image.resize bilinear(tf.expand dims(image, 
0), [299, 299]) 

# 将 像 杀 值 变 换 到 模型 所 要 求 的 区 间 [-1, 1] 内 


images = tf.mul(tf.sub(images, 0.5), 2) 
return images 


def inference(images): 
logits, = inception_model.inference(images, 1001) 
return logits 


这 个 推 闻 方法 要 求 各 参数 都 被 赋值 。 我 们 将 从 一 个 训练 检查 点 恢复 这 些 参数 值 。 你 可 能 还 记得 ， 在 前 面 的 章节 中 ， 我 们 周期 性 地 保存 模型 的 训练 检查 点 文 
件 。 那 些 文件 中 包含 了 当时 学 习 到 的 参数 ， 因 此 当 出 现 异常 时 ， 训 练 进展 不 会 受到 影响 。 





训练 结束 时 ， 最 后 一 次 保存 的 训练 检查 点 文件 中 将 包含 最 后 更 新 的 模型 参数 ， 这 正 是 我 们 希望 在 产品 中 使 用 的 版 本 。 


要 恢复 检查 点 文件 ， 可 使 用 下 列 代码 : 
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saver = tf.train.Saver() 


with es Session() as sess: 
人 训练 检查 点 文件 恢复 各 变量 
eg = tf.train.get checkpoint state(sys.argv[1]) 
if ckpt and ckpt.model_checkpoint_path: 
saver.restore(sess, sys.argv[i] + "/" + 


ckpt.model_checkpoint_path) 
else: 


print("Checkpoint file not found") 
raise SystemExit 


对 于 JInception 模 型 ， 可 从 下 列 链接 下 载 一 个 预 训练 的 检查 点 文件 : ttp//download.tensorflow.org/models/image/inngenet/inception-v3-2016-03-01 tar.gz. 


# 在 Docker 容 器 中 

cd /tmp 

curl -0 http://downLload.tensorflow.org/models/image/imagenet/ 
incepttion-v3-2016-03-01.tar.gz 

tar -xzf inception-v3-2016-03-01.tar.gz 


最 后 ， 利 用 tensorfow serving.session bundle.exporter.Exporter 类 将 模型 导出 。 我 们 通过 传 入 一 个 保存 器 实例 创建 了 一 个 它 的 实例 。 然 后 ， 需 要 利用 
exporter.classification signature 方 法 创建 该 模型 的 签名 。 该 签名 指定 了 什么 是 input tensor 以 及 哪些 是 输出 张 量 。 输 出 由 classes tensor 构 成 ， 它 包含 了 输出 类 名 称 列表 以 


及 模型 分 配给 各 类 别 的 分 值 〈 或 概率 〉 的 socres_tensor。 通 常 ， 在 一 个 包含 的 类 别 数 相当 多 的 模型 中 ， 应 当 通 过 配置 指定 仪 返回 ttnn.top k 所 选择 的 那些 类 别 ， 即 
按 模 型 分 配 的 分 数 按 降序 排列 后 的 前 K 个 类 别 。 





最 后 一 步 是 应 用 这 个 调用 了 exporter.Exporter.init 方 法 的 签名 ， 并 通过 export 方 法 导出 模型 ， 该 方法 接收 一 个 输出 路 径 、 一 个 模型 的 版 本 号 和 会 话 对 象 。 


scores, class_ids = tf.nn.top_k(y, NUM_CLASSES TO RETURN) 
# 为 了 简便 起 见 ， 我 们 将 仅 返 回 类 别 ID， MY AM ENT eA 
classes = 
tf.contrib.lookup.index to string(tf.to int64(class ids), 
mapping=tf.constant([str(i) for i in range(1001)])) 


model_exporter = exporter.Exporter(saver) 
Signature = exporter.classification_signature( 
input_tensor=external_x, classes _tensor=classes, 

scores _tensor=scores) 

model_exporter.init(default_graph_signature=signature, 
init_op=tf.initialize all_tables()) 

model_exporter.export(sys.argv[i] + "/export", 
tf.constant(time.time()), sess) 
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为 此 ， 需 要 将 代码 保存 到 之 前 启动 的 bazel 工 作 区 内 的 exporterpy 中 。 此 外 ， 还 需要 一 个 市 有 构建 规则 的 BUILD 文件 ， 类 似 于 下 列 内 容 : 


# BUILD 文件 
py_binary( 
name = "export", 
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srcs = [ 
“export.py’, 


], 

deps = [ 
"//tensorflow_serving/session_bundle:exporter", 
"@org_tensorflow//tensorflow:tensorflow_py", 
# 仅 在 导出 Inception 模 型 时 需要 
"@inception_model//inception", 

] ， 


然后 ， 可 在 容器 中 通过 下 列 命 令 运行 导出 器 : 
# Docker’ P 
cd /mnt/home/serving_example 


bazel run :export /tmp/inception-v3 


它 将 依据 可 从 /tmp/inception-V3 中 提取 到 的 检查 点 文件 在 /tmp/inception-v3/{current timestamp}/ 中 创建 导出 器 。 


注意 ， 次 运行 它 时 需要 花费 一 些 时 间 ， 因 为 它 必 须要 对 TensorFlow 进 行 编译 。 
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7.3 ”定义 服务 器 接口 
接 下 来 需要 为 导出 的 模型 创建 一 个 服务 器 。 


TensorFlow 服 务 使 用 中 PC 协议 《中 PC 和 十 一 种 基于 HITP/ 的 二 进 制 协议 ) 。 它 支持 用 于 创建 服务 器 和 自动 生成 客户 站 存根 的 各 种 语言 。 由 于 TensorFlow 是 基于 
C++ 的 ， 所 以 需要 在 其 中 定义 目 己 的 服务 器 。 笠 运 的 是 ， 服 务 器 端 代码 比较 简短 。 








为 了 使 用 默 PS， 必 须 在 一 个 protocolbuffer 中 定义 服务 契约 ， 它 是 用 于 中 PC 的 IDL《〈 接 口 定 义 语 言 )》 和 二 进 制 编码 。 下 面 来 定义 我 们 的 服务 。 前 面 的 导出 一 节 曾 
提 到 ， 我 们 希望 服务 有 一 个 能 够 接收 一 个 JPEG 编 码 的 竺 分 类 的 图 像 字 符 串 作为 输入 ， 并 可 返回 一 个 依据 分 数 排列 的 由 推断 得 到 的 类 别 列表 。 


这 样 的 服务 应 定义 在 一 个 classification service.proto 文 件 中 ， 类 似 于 : 


syntax = "proto3"; 


message ClassificationRequest { 
// JPEG 编 码 的 图 像 字 符 串 
bytes input = 1; 

}; 


message ClassificationResponse { 
repeated ClassificationClass classes = 1; 


}; 


message ClassificationClass { 
string name = 1; 
float score = 2; 


service ClassificationService { 
rpc classify(ClassificationRequest) returns 
(ClassificationResponse); 


} 


可 对 能 够 接收 一 幅 图 像 ， 或 一 个 音频 片段 或 一 段 文字 的 任意 类 型 的 服务 使 用 同一 个 接口 。 





为 了 使 用 像 数 据 库 记 录 这 样 的 结构 化 输入 ， 需 要 修改 ClassificationRequest 消 息 。 例 如 ， 如 果 试 图 为 Iris 数 据 集 构建 分 类 服务 ， 则 需要 如 下 编码 : 


message ClassificationRequest { 
float petalWidth = 1; 
float petalHeight = 2; 
float sepalWidth = 3; 
float sepalHeight = 4; 


1%“ proto t F HH proton Meas IRA PH vin BARS AS AIM ARE ON SEA protobubin ets, ZA BUILDIC PRS I — A ot ALI, AAU: 
load("@protobuf//:protobuf.bzl", "cc_proto_library") 


cc proto library( 
name="classification service proto", 
srcs=["classification_service.proto" ], 
cc_libs = ["@protobuf//:protobuf"], 
protoc="@protobuf//:protoc", 
default_runtime="@protobuf//:protobuf", 
use_grpc_pLlugin=1 


请 注意 位 于 上 述 代码 片段 中 最 上 方 的 pad。 它 从 外 部 导入 的 protobuf 过 中 导入 了 cc proto library 规则 定义 。 然 后 ， 利 用 它 为 proto 文 件 定义 了 一 个 构建 规则 。 利 用 
bazel build: classification service proto 可 运行 该 构建 ， 并 通过 bazel egiela rerem ER: 





class ClassificationService { 


class Service : public ::grpc::Service { 
public: 


Service(); 

virtual ~Service(); 

virtual ::grpc::Status classify(::grpc::ServerContext* 
context, const ::ClassificationRequest* 
request, ::ClassificationResponse* response); 


Hi- 


按照 推断 逻辑 ，ClassificationService: : Service 是 必须 要 实现 的 接口 。 我 们 也 可 通过 检查 bazel-genfiles/classification service.pb.h 但 看 request 和 response 消 息 的 定义 : 


class ClassificationRequest : 
public ::google::protobuf::Message { 


const ::std::string& input() const; 
void set_input(const ::std::string& value); 


} 


class ClassificationResponse : 
public ::google::protobuf::Message { 


const ::ClassificationClass& classes() const; 
void set_allocated classes(::ClassificationClass* 
classes); 


} 


class ClassificationClass : 
public ::google::protobuf::Message { 


const ::std::string& name() const; 
void set_name(const ::std::string& value); 


float score() const; 
void set_score(float value); 


可 以 看 到 ，proto 定 义 现 在 变 成 了 每 种 类 型 的 C++ 类 接口 。 它 们 的 实现 也 是 自动 生成 的 ， 这 样 便 可 直接 使 用 它们 。 
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7.4 实现 推 新 服务 需 


为 实现 ClassificationService: : Service， 需 要 加 载 导 出 模型 并 对 其 调用 推断 方法 。 这 可 通过 一 个 SessionBundle 对 象 来 实现 ， 该 对 象 是 从 导出 的 模型 创建 的 ， 它 包 
含 了 一 个 带 有 完全 加 载 的 数据 流 图 的 TE 会 话 对 象 ， 以 及 带 有 定义 在 导出 工具 上 的 分 类 签名 的 元 数据 。 





为 了 从 导出 的 文件 路 径 创 建 SessionBundle 对 象 ， 可 定义 一 个 便捷 函数 ， 以 处 理 这 个 样板 文件 : 


#include <iostream> 
#include <memory> 
#include <string> 


#include <grpc++/grpc++.h> 
#include "classification_service.grpc.pb.h" 


#include "tensorflow_serving/servabLles/tensorflow/ 
session_bundle_ factory.h" 


using namespace std; 
using namespace tensorflow::serving; 
using namespace grpc; 


unique _ptr<SessionBundle> createSessionBundle(const string& 
pathToExportFiles) { 
SessionBundLleConfig session_bundle_ config = 
SessionBundLleConfig(); 
unique _ptr<SessionBundleFactory> bundle factory; 
SessionBundLeFactory: :Create(session_bundle_config, 
&bundle_factory); 


unique_ptr<SessionBundle> sessionBundle; 
bundle_factory- 
>CreateSessionBundle(pathToExportFiles, &sessionBundle); 


return sessionBundle; 


在 这 段 代 码 中 ， 我 们 利用 了 一 个 SessionBundleFactory 类 创建 了 SessionBundle 对 象 ， 并 将 其 配置 为 从 pathToExportFiles 指 定 的 路 径 中 加 载 导 出 的 模型 。 最 后 返回 一 
个 指向 所 创建 的 SessionBundle 实 例 的 unique 指 针 。 


接 下 来 需要 定义 服务 的 实现 一 ClassificationServiceImpl， 该 类 将 接收 SessionBundlke 实 例 作 为 参数 ， 以 在 推 新 中 使 用 : 


class ClassificationServiceImpl final : public 
ClassificationService: :Service { 


private: 
unique_ptr<SessionBundle> sessionBundle; 


public: 
ClassificationServiceImpl(unique_ptr<SessionBundle> 
sessionBundle) : 
sessionBundle(move(sessionBundle)) {}; 
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Status classify(ServerContext* context, const 
ClassificationRequest* request, 
ClassificationResponse* response) 

override { 

// 加 载 分 类 签名 

ClassificationSignature signature; 

const tensorflow::Status signatureStatus = 

GetCLassificationSignature(sessionBundle- 

>meta_graph_def, &signature); 


if (!signatureStatus.ok()) { 
return Status(StatusCode: : INTERNAL, 
SignatureStatus.error_message()); 


} 


// 将 protobuf 输 入 变换 为 推断 输入 张 量 


tensorf low: : Tensor 
input(tensorflow: :DT_STRING, tensorflow: :TensorShape()); 
input.scalar<string>()() = request->input(); 


vector<tensorflow::Tensor> outputs; 


// 运行 推断 
const tensorflow::Status inferenceStatus = 
sessionBundle->session->Run( 
{{signature.input().tensor_name(), 
input}}, 
{signature.classes().tensor_name(), 
Signature.scores().tensor_name()}, 
{}, 
&outputs ) ; 


if (!inferenceStatus.ok()) { 
return Status(StatusCode:: INTERNAL, 
inferenceStatus.error_message()); 


} 


// 将 推断 输出 张 量 变换 为 Protobuf 输 出 


Tor {iat i = 8; ix 
outputs[0].vec<string>().size(); ++i) { 


ClassificationCLlass 
*classificationClass = response->add_classes(); 

classificationCLass- 
>set_name(outputs[0].flat<string>()(i)); 

classificationCLass- 
>set_score(outputs[1].flat<float>()(i)); 


} 


return Status::0K; 


下 
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.利用 GetClassificationSignature 函 数 加 载 存 储 在 模型 导出 元 数据 中 的 Classifcation- Sienature。 这 个 签名 指定 了 输入 张 量 的 《逻辑 ) 名 称 到 所 接收 的 图 像 的 真实 名 称 
以 及 数据 流 图 中 输出 张 量 的 (逻辑 ) 名 称 到 对 其 获得 推断 结果 的 映射 。 


.将 卫 EG 编 码 的 图 像 字符 串 从 request 参 数 复制 到 将 被 进行 推断 的 张 量 。 
:运行 推断 。 它 从 sessionBundle 获 得 TF 会 话 对 象 ， 并 运行 一 次 ， 同 时 传 入 输入 和 输出 张 量 的 推断 。 
:从 输出 张 量 将 结果 复制 到 由 ClassificationResponse 消 息 指定 的 形状 中 的 response 输 出 参数 并 格式 化 。 


最 后 一 段 代码 是 设置 gRPC 服 务 器 并 创建 ClassificationServiceImpl] 实 例 〈( 用 Session-Bundle 对 象 进行 配置 ) 的 样板 代码 。 
int main(int argc, char** argv) { 


if (arac < 3) { 
cerr << "Usage: server <port> /path/to/export/files" << 
endl; 
return 1; 


const string serverAddress(string("0.0.0.0:") + 


argv[1]); 
const string pathToExportFiles(argv[2]); 


unique_ptr<SessionBundle> sessionBundle = 
createSessionBundle(pathToExportFiles); 


ClassificationServiceImpL 
classificationServiceImpl(move(sessionBundle) ); 


ServerBuilder builder; 
builder .AddListeningPort(serverAddress, 
grpc::InsecureServerCredentials()); 


builder .RegisterService(&classificationServiceImpL) ; 


unique_ptr<Server> server = builder.BuildAndStart(); 
cout << "Server listening on " << serverAddress << endl; 


server ->Wait(); 


return 0; 


为 了 编译 这 段 代 码 ， 需 要 在 BUILD 文件 中 为 其 定义 一 条 规则 : 


cc_binary( 
name = "server", 
srcs = [ 
“server.cc’, 
], 
deps = [ 
":classification_ service proto”, 
"@tf_serving//tensorflow_serving/servables/ 
tensorflow:session_bundle_ factory", 
"@grpc//:grpc++", 
] 
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借助 这 段 代 码 ， 便 可 通过 命令 bazelrun: server 9999/tmp/inception-v3/export/ {timestamp} MA as 752 47 HET ARS 48 o 
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7.5 客户 端 应 用 


由 于 默 PC 和 是 基于 HITP/2 的 ， 将 来 可 能 会 直接 从 浏览 吉 调 用 基于 中 PC 的 服务 ， 但 除非 主流 的 浏览 器 文 持 所 需 的 HITP/2 特 性 ， 且 谷歌 发 布 浏览 器 端的 JavaScript 
钼 PC 客户 端 程序 ， 从 webapp 访 问 推 类 服务 都 应 当 通 过 服务 器 端的 组 件 进行 。 


接 下 来 将 基于 BaseHTTPServer 搭 建 一 个 简单 的 Python Web 服 务 器 ，BaseHITPServer 将 处 理 上 载 的 图 像 文件 ， 并 将 其 发 送 给 推断 服务 进行 处 理 ， 再 将 推断 结果 以 
纯 文 本 形式 返回 。 


为 了 将 图 像 发 送 到 推断 服务 器 进行 分 类 ， 服 务 占 将 以 一 个 简单 的 表单 对 GET 请 求 做 出 咽 应 。 所 使 用 的 代码 如 下 : 


from BaseHTTPServer import HTTPServer, BaseHTTPRequestHandler 
import cgi 

import classification service pb2 

from orpc.beta import implementations 


class CLlientApp(BaseHTTPRequestHand ler): 
def do GET(self): 
self.respond form() 


def respond form(self, response=""): 
ne =m 
<html><body> 
<hi>Image classification service</hi> 
<form enctype="muLtipart/form-data" method="post"> 
<div>Image: <input type="file"” name="file" 
accept="image/ jpeg"></div> 


<div><input type="submit" value="Upload"></div> 
</form> 

为 S 

</body></html> 


response = form % response 


self.send_response(200) 
self.send_header("Content-type", "text/html") 
self.send_header("Content-length", len(response)) 
self.end_headers() 

self .wfile.write(response) 





为 了 从 Web App 服 务 器 调用 推断 功能 ， 需 要 ClassificationService 相 应 的 Python protocolbuffer 客 户 端 。 为 了 生成 它 ， 需 要 运行 Python 的 protocolbuffer 编 译 器 : 


pip install grpcio cython grpcio-tools 
python -m grpc.tools.protoc -I. --python_out=. -- 
grpc_python_out=. classification_service.proto 


它 将 生成 包含 了 用 于 调用 服务 的 stub 的 classification service pb2.py 文 件 。 


服务 器 接收 到 POST 请 求 后 ， 将 对 发 送 的 表单 进行 解析 ， 并 用 它 创 建 一 个 Classification-Request 对 象 。 然 后 为 这 个 分 类 服务 器 设置 一 个 channel， 并 将 请 求 提 交 给 
它 。 最 后 ， 它 会 将 分 类 响应 泻 染 为 HIML， 并 送 回 给 用 户 。 
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def do POST(self): 


form = cgi.FieldStorage( 
fp=self.rfile, 
headers=self.headers, 
environ={ 
‘'REQUEST_METHOD': “POST ， 
'CONTENT_TYPE': selLf .headers[ 'Content-Type' ], 
}) 


request = 
classification_service_ pb2.ClassificationRequest() 
request.input = form['file'].file.read() 


channel = 
impLementations.insecure_channel("127.0.0.1", 9999) 
stub = 
classification_service pb2.beta_ create ClassificationService_stub(channeL) 
response = stub.classify(request, 10) # 10 secs 
timeout 


self.respond_form("<div>Response: %s</div>" % 
response) 


为 了 运行 该 服务 器 ， 可 从 该 容器 外 部 使 用 命令 python clentpy。 然 后 ， 用 浏览 器 导航 到 httpVlocalhost: 80809 HUL ta 72 — th RSF Be HET BR HT 
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7.6 ”产品 准备 


在 结束 本 章 内 容 之 前 ， 我 们 还 将 学 习 如 何 将 分 类 服务 器 应 用 于 产品 中 。 





首先 ， 将 编译 后 的 服务 器 文件 复制 到 一 个 容器 内 的 永久 位 置 ， 并 清理 所 有 的 临时 构建 文件 : 


# 在 容器 内 部 
mkdir /opt/classification_server 
cd /mnt/home/serving_example 


cp -R bazel-bin/. /opt/classification_server 
bazel clean 


现在 ， 在 容器 外 部 ， 我 们 必须 将 其 状态 提交 给 一 个 新 的 Docker 镜 像 ， 基 本 含义 是 创建 一 个 记录 其 虚拟 文件 系统 变化 的 快照 


# 在 容器 外 部 
docker ps 


# 获取 容器 ID 
docker commit <container id> 


这 样 ， 便 可 将 图 像 推 送 到 自己 偏好 的 docker 服 务 云 中 





， 并 对 其 进行 服务 。 
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7.7 ”本章 小 结 





在 本 章 中 ， 我 们 学 习 了 如 何 将 训练 好 的 模型 用 于 服务 、 如 何 将 它们 导出 ， 以 及 如 何 构建 可 运行 这 些 模型 的 快速 、 轻 量 级 服务 
事 ;还 学 习 了 当 给 定 了 从 其 他 App 使 用 TensorFlow 模 型 的 完整 工具 集 后 ， 如 何 创建 使 用 这 些 模型 的 简单 Web App. 


在 接 下 来 的 一 章 中 ， 我 们 将 提供 一 些 关 于 贯穿 本 书 的 服务 函数 和 类 的 代码 请 段 和 解释 。 
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第 8 章 MARAG NAGATA 


本 章 内 容 较 为 简短 ， 我 们 将 提供 一 些 关 于 贯穿 本 书 的 服务 函数 和 类 的 代码 片段 和 解释 。 
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8.1 ”确保 目录 结构 存在 





首先 介绍 一 些 与 文件 系统 交互 所 必需 的 基础 知识 。 基 本 上 ， 每 次 创建 文件 时 ， 都 必须 确保 其 父 目 录 已 经 存在 。 无 论 操 作 系 统 还 是 Python 都 不 会 自动 做 这 些 事 ， 
因此 ， 需 要 编写 能 够 正确 处 理 这 种 情形 的 函数 ， 以 确保 沿 着 指定 路 径 的 全 部 目录 或 部 分 目录 已 经 存在 。 





import errno 
import os 


def ensure _directory(directory): 


nnn 


创建 沿 指定 路 径 上 那些 尚 不 存在 的 目录 
directory = os.path.expanduser(directory) 
try: 
os.makedirs(directory) 
except OSError as e: 
if e.errno != errno.EEXIST: 
raise e 
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8.2 下载 函数 





在 本 书 的 例子 中 ， 我 们 下 载 了 几 个 不 同 的 数据 集 。 这 些 例子 有 一 个 公共 的 逻辑 ， 因 此 将 它们 提取 到 一 个 函数 中 是 完全 合理 的 。 首 先 ， 如 果 文 件 名 未 指定 ， 则 








需要 从 URL 中 进行 解析 。 然 后 ， 利 用 上 述 函数 确保 下 载 位 置 的 目录 路 径 已 经 存在 。 


import shutil 
from urllib.request import urlopen 


def download(url, directory, filename=None): 


下 载 一 个 文件 ， 并 返回 它 在 本 地 文件 系统 中 的 文件 和 名。 如 果 该 文件 
已 经 存在 ， 则 无 须 再 次 下 载 。 如 果 未 指定 文件 名 ， 则 从 URL 中 自动 
解析 。 最 后 返回 flepath 
if not filename: 
_, filename = os.path.split(url) 
directory = os.path.expanduser(directory) 
ensure _directory(directory) 
filepath = os.path.join(directory, filename) 
if os.path.isfile(filepath): 
return filepath 
print( 'Download', filepath) 
with urlopen(url) as response, open(filepath, ‘wb') as 
file: 
shutil.copyfileobj(response, file_) 
return filepath 








在 开始 实际 下 载 之 前 ， 先 检查 下 载 位 置 是 否 已 存在 具有 目标 名 称 的 文件 。 如 果 是 ， 则 跳 过 下 载 ， 因 为 不 希望 重复 不 必要 的 大 量 下 载 。 最 后 ， 下 载 该 文件 ， 并 
返回 其 路 径 。 如 果 确 实 需要 重复 菜 个 下 载 ， 只 需 将 相应 的 文件 从 文件 系统 中 删除 。 
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8.3 ”磁盘 缓存 修饰 器 








在 数据 科学 和 机 器 学 习 中 ， 我 们 会 对 较 大 规模 的 数据 集 进行 处 理 ， 这 样 每 次 对 模型 做 出 修改 后 ， 便 无 须 对 这 些 数据 重复 进行 预 处 理 。 因 此 ， 我 们 希望 将 数据 
处 理 的 中 间 结 果 保 存在 磁盘 中 的 公共 位 置 。 这 样 ， 以 后 便 可 以 检查 该 文件 是 否 已 经 存在 。 








现在 利用 这 一 点 编写 @disk_cache 修 饰 器 ， 它 将 函数 的 实 参 传递 给 被 修饰 的 函数 。 这 些 函数 参数 也 用 于 确定 这 些 参数 的 组 合 是 否 存 在 一 个 缓存 的 结果 。 为 
此 ， 它 们 通过 散 列 映射 为 一 个 预先 为 文件 名 准备 的 数字 。 


import functools 
import os 
import pickle 


def disk_cache(basename, directory, method=False): 


用 于 将 可 腌 制 (pickleable) 的 返回 值 缓存 到 磁盘 的 函数 修饰 器 。 
对 于 无 效 的 情况 ， 利 用 一 个 从 函数 参数 计算 得 到 散 列 值 。 如 果 是 


'method'， 则 跳 过 第 一 个 参数 (通常 是 self 或 cls ) 。 绥 存 的 filepath 
为 'directory/basename-hash.pickle' 

directory = os.path.expanduser(directory) 

ensure directory(directory) 


def wrapper(func): 
@functools.wraps( func) 
def wrapped(*args, **kwargs): 
key = (tuple(args), tuple(kwargs.items())) 
# 对 于 这 个 无 效 散 列 值 ， 请 勿 使 用 self 或 cls 
if method and key: 
key = key[1:] 
filename = '{}-{}.pickle'.format(basename, 
hash(key)) 
filepath = os.path.join(directory, filename) 
if os.path.isfile(filepath): 
with open(filepath, 'rb') as handle: 
return pickle. load(handle) 
result = func(*args, **kwargs) 
with open(filepath, 'wb') as handle: 
pickle.dump(result, handle) 
return result 
return wrapped 


return wrapper 


下 面 给 出 一 个 利用 磁盘 缓存 修饰 器 保存 数据 处 理 流 水 线 的 例子 。 
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@disk_cache('dataset', '/home/user/dataset/') 
def get_dataset(one_hot=True): 
dataset = Dataset('http://example.com/dataset.bz2') 
dataset = Tokenize(dataset) 
if one_hot: 
dataset = OneHotEncoding(dataset) 
return dataset 





对 于 方法 ， 有 一 个 method=Falkse 的 参数 用 于 通知 修饰 器 是 否 将 第 一 个 参数 忽略 。 在 方法 和 类 方法 中 ， 第 一 个 参数 为 对 象 实例 sel 它 在 每 次 程序 运行 时 都 是 不 
同 的 ， 因 此 不 应 当 用 于 判断 是 否 有 可 用 的 缓存 。 对 于 类 外 部 的 静态 方法 和 函数 ， 它 应 为 Falkse。 
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8.4 属性 字典 








当 使 用 配置 对 象 时 ， 这 个 简单 类 仅 提 供 了 一 些 便利 。 虽 然 能 够 将 配置 很 好 地 保存 在 Python 字典 结构 中 ， 但 利用 con 合 key] 这 样 的 语法 访问 其 中 的 元 素 终 完 有 些 
不 方便 。 


class AttrDict(dict): 


def getattr (self, key): 
if key not in self: 
raise AttributeError 
return self[key] 


def setattr (self, key, value): 
if key not in self: 
raise AttributeError 
self[key] = value 


XPRAK AA BM dict, CREA BREA AEKOA MIR, Wceonfgkey#llconfigkey=value. AS AEE, EEA ASE CEA 
键 值 对 ) ， 或 利用 *##locas O 实现 。 


parmas = AttrDict({ 
'key': value, 


}) 


params = AttrDict( 
key=value, 


def get_params(): 
key = value 
return AttrDict(**locals()) 


A A K Blocals O 仅 返回 一 个 从 作用 域 中 所 有 局 部 变量 名 到 值 的 映射 。 虽 然 一 些 对 Python 不 其 熟悉 的 人 可 能 会 觉得 这 里 有 太 多 难以 理解 的 地 方 ， 但 这 项 技术 
确实 能 够 为 我 们 种 来 一 些 便利 ， 这 主要 体现 在 我 们 能 够 拥有 一 些 依赖 于 之 前 的 项 的 配置 项 。 


def get params(): 
learning rate = 0.003 
optimizer = tf.train.AdamOptimizer(learning_rate) 
return AttrDict(**locals()) 





该 函数 返回 一 个 同时 包含 了 leaming rate 和 optimizer 的 属性 字典 ， 在 字典 的 声明 中 这 是 不 可 能 事先 有 的 。 与 之 前 一 样 ， 只 需 找到 一 种 适合 上 自己 《或 同事 ) WA 
式 ， 然 后 使 用 即 可 。 
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8.5 PATER TEM Vids 


正如 所 了 解 的 那样 ，TensorFlow 代 码 定 义 了 一 个 数据 流 图 ， 而 非 执 行 实际 的 计算 。 如 采 和 希 望 将 模型 封装 到 类 中 ， 便 无 法 从 函数 或 属性 中 直接 得 到 其 输出 ， 因 
为 这 样 每 次 都 会 为 数据 流 图 增加 新 的 运算 。 下 面 来 看 一 个 由 此 引发 问题 的 例子 : 


class Model: 


def init (self, data, target): 
self.data = data 
self.target = target 


@property 
def prediction(self): 
data size = int(self.data.get_shape()[1]) 
target_size = int(self.target.get_shape()[1]) 
weight = tf.Variable(tf.truncated normal([data_ size, 
target_size])) 
bias = tf.Variable(tf.constant(0.1, 
shape=[target_size])) 
incoming = tf.matmul(self.data, weight) + bias 
prediction = tf.nn.softmax(incoming) 
rediction 


@property 
def optimize(self): 
cross entropy = -tf.reduce_sum(self.target, 
tf. log(self.prediction)) 
optimizer = tf.train.RMSPropOptimizer(0.03) 
optimize = optimizer.minimize(cross entropy) 
return optimize 


@property 
def error(self): 
mistakes = tf.not_equal( 
tf.argmax(self.target, 1), 
tf.argmax(self.prediction, 1)) 
error = tf.reduce mean(tf.cast(mistakes, tf.float32)) 
return error 


如 果 从 外 部 使 用 它 的 一 个 实例 ， 例 如 在 访问 modelLoptinze 时 ， 将 会 在 数据 流 图 中 创建 一 个 新 的 计算 路 径 。 此 外 ， 它 还 会 在 内 部 调用 modeLprediction 创 建 一 些 
新 的 权 值 和 偏 置 。 为 了 解决 这 种 设计 问题 ， 可 引入 下 列 @lazy property 修 饰 符 。 


import functools 


def lazy _property(function): 
attribute = ' lazy_' + function. name __ 


@property 
@functools.wraps(function) 
def wrapper(self): 
if not hasattr(self, attribute): 
setattr(self, attribute, function(self)) 
return getattr(self, attribute) 
return wrapper 
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这 里 的 主要 思想 是 定义 一 个 仅 计 算 一 次 的 属性 。 结 果 保 存 到 一 个 像 被 带 有 茶 些 前 缀 的 函数 《如 此 处 的 layz) 调用 的 成 员 中 。 后 续 对 属性 名 的 调用 将 返回 该 
数据 流 图 中 的 已 有 节点 。 现 在 ， 我 们 可 将 上 述 模型 写 为 : 


class Model: 


def init__(self, data, target): 
self.data = data 
self.target = target 
self.prediction 
self .optimize 
self.error 


@lazy_ property 
def prediction(self): 
data size = int(self.data.get_shape()[1]) 
target_size = int(self.target.get_shape()[1]) 
weight = tf.Variable(tf.truncated_normal([data_ size, 
target_size])) 
bias = tf.Variable(tf.constant(0.1, 
shape=[target_size])) 
incoming = tf.matmul(self.data, weight) + bias 
return tf.nn.softmax(incoming) 


@lazy_property 
def optimize(self): 
cross entropy = -tf.reduce sum(self.target, 
tf. log(self.prediction) ) 
optimizer = tf.train.RMSPropOptimizer(0.03) 
return optimizer.minimize(cross entropy) 


@lazy_ property 
def error(self): 
mistakes = tf.not_equal( 
tf.argmax(self.target, 1), 
tf.argmax(self.prediction, 1)) 
return tf.reduce_mean(tf.cast(mistakes, tf.float32)) 








惰性 属性 是 一 种 对 TensorFlow 模 型 结构 化 以 及 将 其 分 解 为 类 的 很 好 的 工具 。 对 于 那些 有 外 部 需求 和 需要 将 计算 分 解 为 内 件 的 节点 ， 它 都 是 非常 有 用 的 。 
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8.6 Am wai AIS has 


当 在 如 Jupyter Notebookix FF HI 20 AA SE (A TensorFlowh, esiaieriias cde as AAA. WY, TEAR MTS ETE het RT, TensorFlow22 (i HERA 
数据 流 图 。 然 而 ， 在 Jupyter Notebook 中 ， 解 释 器 的 状态 会 在 不 同 单元 (cell) 执行 期 间 保 持 。 因 此 ， 初 始 的 默认 数据 流 图 是 始终 存在 的 。 





执行 再 次 定义 了 数据 流 图 运算 的 茶 个 单元 会 试图 将 这 些 运 算 添 加 到 它们 已 经 存在 的 数据 法 图 中 。 但 是 ， 在 这 种 情况 下 TensorFlow 会 抛 出 一 个 错误 。 规 避 该 错 
误 的 一 个 简单 方法 是 根据 沫 单 中 的 选项 重新 局 动 kemel 并 再 次 运行 所 有 的 单元 。 








二 JUPYter orc-sequence-labelling Last checkpoint: Last Sunday at 12:40 PM (unsaved changes) P 
File Edit View Insert Cell Kerme! Help Python 3 oO 


A + kK ®@# Bi f+ HW BB Interrupt 8 | CellToolbar 
Restan | 
_ Restan & Clear Output | 
Restan & Run All 
OCR Sequenc 


Reconnect 


Dataset: hitp://ai.stanfot 





Change kernel + 
In [1]: Smatplotlib inline 
import importlib 


import utility 
importlib.reload(utility) 


import numpy as np 
import tensorflow as tf 












然而 ， 还 有 另外 一 种 更 好 的 方式 。 你 只 需 创 建 一 个 定制 的 数据 流 图 ， 并 将 其 设置 为 默认 的 。 所 有 的 运算 都 将 添加 到 该 数据 流 图 中 ， 而 且 如 果 再 次 运行 该 单 
元 ， 将 会 创建 一 个 新 的 数据 流 图 。 旧 的 数据 流 图 将 被 自动 清理 ， 因 为 已 经 不 存在 任何 指 癌 它 的 引用 。 





def main(): 
H 定义 您 的 占 位 符 、 模 型 等 
data = tf.placeholder(...) 


target = tf.placeholder(...) 
model = Model() 


with tf.Graph().as_default(): 
main() 


UEah, A E D E Aak Bik A EY EE “MB ids, FRADE Ee. SERB MSC IN BTA, PONE CAL, FFU 
用 其 他 函数 来 创建 模型 。 


import functools 
import tensorflow as tf 


def overwrite graph(function): 
@functools.wraps(function) 
def wrapper(*args, **kwargs): 
with tf.Graph().as_default(): 


return function(*args, **kwargs) 
return wrapper 





这 样 会 使 上 面 的 例子 显得 更 容易 : 


@overwrite_graph 
def main(): 
# Define your placeholders, model, etc. 


data = tf.placeholder(...) 
target = tf.placeholder(...) 
model = Model() 


main() 
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以 上 便 是 本 章 的 全 部 内 容 。 接 下 来 的 最 后 一 章 将 对 全 书 进 行 总 结 。 
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Om ”结语 : 其 他 资源 


你 做 到 了 ! 感谢 阅读 本 书 。 至 此 ， 对 于 用 TensorFljow 构 建 机 器 学 习 模 型 的 核心 原理 和 API 想 必 已 有 了 深入 的 理解 。 如 果 之 前 
对 深度 学 习 缺 乏 了 解 ， 我 们 希望 你 通过 本 书 获得 更 多 的 领悟 ， 并 对 卷 积 神经 网 络 和 循环 神经 网 络 中 一 些 最 常见 的 架构 四 轻 就 熟 。 
你 已 经 了 解 了 将 训练 好 的 模型 投入 产品 设置 中 ， 并 在 应 用 中 发 挥 TensorFljow 的 作用 是 多 么 便捷 。 

















TensorFlow 具 备 改 变 研 究 人 员 解 决 机 器 学 习 问 题 的 方式 的 能 力 。 借 助 本 书 介绍 的 技能 ， 你 将 对 自己 构建 、 测 试 、 实 现 已 有 模 
型 以 及 设计 新 的 实验 网 络 元 满 日 信 。 既 然 已 熟知 一 些 有 关 深 度 和 学 习 的 核心 知识 和 技能 ， 请 大 胆 试验 TensorFlow 中 的 一 切 功 能 。 现 
在 ， 当 讨论 关于 创建 机 器 学 习 问 题 的 解决 方案 时 ， 你 已 经 具备 了 新 的 优势 。 





今后 的 学 习 路 线 及 其 他 资源 


里 然 本 书 已 经 涵盖 了 相当 多 的 内 容 ， 限 于 篇 幅 ， 仍 有 一 些 主题 未 能 涉及 。 因 此 ， 我 们 补充 介绍 一 些 资 源 以 帮助 你 更 深入 地 了 


解 TensorFlow。 


阅读 API 文 档 





对 于 之 前 未 使 用 过 TensorFlow 的 开发 者 而 言 ， 由 于 TensorFlow 存 在 一 些 特 有 的 术语 ， 使 得 TensorFljow 目 带 的 API 文 档 在 阅读 起 
来 央 有 挑战 性 。 然 而 ， 既 然 已 经 具备 了 相关 基础 ， 你 会 发 现在 编写 代码 时 ， 这 份 API 文 档 极 有 价值 。 请 在 后 全 保持 文档 的 打开 状 


态 ， 或 用 一 个 单独 的 显示 器 显示 该 文档 : 








https://www.tensorflow.org/versions/master/api_docs/index.html 
保持 更 新 


要 跟踪 TensorFlow 的 最 新 功能 和 特性 ， 最 佳 途径 当然 是 关注 GitHub 上 的 官方 TensorFlow Git 库 。 通 过 阅读 拉 搜 请 求 (pull 
request) 、 问 题 (issues〉 以 及 发 行 记 录 (release note) ， 你 会 提前 获悉 在 下 一 个 版 本 中 会 包含 哪些 内 容 ， 甚 至 能 够 预测 对 新 版 本 
的 规划 。 相 关 网 址 如 下 : 








https://github.conytensorflow/tensorflow 
分 布 式 TensorFlow 


虽然 在 分 布 式 设置 下 运行 TensorFlow 的 基本 概念 相对 人 简单， 为 了 高 效 训练 TensorFlow 模 型 而 设置 集群 的 细节 却 非常 复杂 。 开 
始 接触 分 布 式 TensorFlow 时 ，tensorfow.org 网 站 应 当 是 最 主要 的 参 


Æ: https://www.tensorflow.org/versions/master/how_tos/distributed/index. html 








请 注意 ， 笔 者 预计 在 不 久 的 将 来 ， 新 的 版 本 会 使 分 布 式 TensorFlow 更 加 简便 和 灵活 ， 尤 其 是 对 使 用 集群 管理 软件 (如 
Kubernetes〉 的 场合 。 


构建 新 的 TensorFlow 功 能 





如 果 希 望 了 解 TensorFlow 的 底层 原理 并 学 习 如 何 创 建 自己 的 Op， 笔 者 强烈 推荐 tensorflow.org 上 的 官方 how-to 文 档 : 


https://www.tensorflow.org/versions/master/how_tos/adding_an_op/index.html 





从 头 开始 构建 Op 的 过 程 是 熟悉 TensorFlow 框 架设 计 原理 的 最 佳 途径 。 如 果 你 有 能 力 编号 自己 需要 的 特性 ， 为 什么 不 亲自 动手 
而 是 等 待 新 版 本 的 发 布 呢 ? 
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与 社区 一 同 成 长 


TensorFlow 社 区 活跃 而 繁 采 。 既 然 你 已 经 了 解 这 球 软 件 ， 强 烈 建 议 你 加 入 社区 系统 ， 并 通过 帮助 他 人 让 这 个 社区 变 得 更 好 ! 
除了 GitHub 代 码 库 ， 官 方 的 邮件 列表 和 Stack Overflow 问 题 提 供 了 另外 两 种 社区 参与 的 渠道 。 











TensorFlow 邮 件 列 表 是 针对 与 特性 相关 的 一 般 讨论 、 设 计 思 想 和 TensorFlow 的 未 来 而 设置 的 : 


https://groups. google.conya/tensorflow.org/d/forum/discuss 





请 注意 ， 如 果 要 咨询 与 自己 项 目 有 关 的 问题 ， 请 勿 使 用 邮件 列表 ! 对 于 调试 中 的 具体 问题 、 最 佳 实践 、API 或 任何 其 他 具体 
的 方面 ， 请 查阅 Stack Overflow， 查 看 该 问题 是 否 已 被 提问 和 回答 ， 如 果 没有 ， 不 妨 多 问 自己 几 个 为 什么 ! 


http://stackoverflow.com/questions/tagged/tensorflow 


本 书 代 码 


本 书 中 的 示例 代码 和 附加 材料 可 从 本 书 的 GitHub 代 码 库 获 取 : 


https://github.conYbackstopmedia/tensorflowbook 


再 次 感谢 你 阅读 本 书 ! 
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